- 博客(7)
- 资源 (10)
- 收藏
- 关注
原创 数据分析师养成记-python做数据分析(一)
几个概念:json:是一种常用的web数据格式,其中《利用python进行数据分析》用到的一个usa.gov数据集就是这种格式。{ "a": "Mozilla\/5.0 (Windows NT 6.1; WOW64) AppleWebKit\/535.11 (KHTML, like Gecko) Chrome\/17.0.963.78 Safari\/535.11", "c": "
2016-09-29 10:24:50 2715
原创 将hdfs上多个文本数据生成mllib的训练集测试集
每个文本有一列数据,将选中的几个文本按要求合并为训练集供机器学习算法使用将单个文本的hdfs路径设置为参数,提高程序的通用性,将所有文本都追加为一个数组,随后按规定切分读写,速度不是很慢。测试效果还可以package packimport java.io.{File, PrintWriter}import org.apache.spark.{SparkConf, SparkCo
2016-09-23 10:40:24 671
原创 leetcode记录1
这是一道soeasy的题目Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution.给一个数组和目标值,数
2016-09-14 10:17:22 265
原创 数据处理之计算星期几
数据处理,需要得出日期当天的星期数,因此想到了java中的calendar函数,这函数是相当的好使啊在说代码之前,大家看看数据的格式,好让大家明白切分规则,为什么那样切字符串这是一个csv文本,只需要在后面追加一个星期数就可以了,因此提取年月日的切分如下: a = line.split(" "); b = a[0].split("/");
2016-09-08 16:57:52 331
原创 使用相关性寻找影响某一传感器变化的因素
做数据处理分析,遇到这么一个问题,需要分析一组传感器的数据,目的是通过分析一组5个传感器的数据,在一个传感器数据有异常的情况下,可能导致这个异常的是那个传感器,或者是只有这个错误。因此,有这么两个想法:1,使用pca做主成分分析,降维,看贡献率。2,使用统计相关度一些知识。在使用pca之后,效果不是很好,使用相关性分析之后,觉得效果还是不错的,可以用来使用。具体的做法是1,将一
2016-09-05 21:40:11 492
原创 整理输入输出,与可视化对接
Spark Mllib机器学习库一共有六大类,有12个算法 一、回归算法1.线性回归数据输入格式:(1)、 “标签,特征值1特征值2 特征值3特征值4 .....” (2)、 “标签特征值ID:特征值特征值ID2:特征值......”数据输出格式:(预测1,标签1)(预测2,标签2)...2.逻辑回归数据输入格
2016-09-02 22:16:29 630
原创 随机生成文件名
根据需求需要,需要写一个随机文件名生成器,文件名不过是不能有重复的,因为做的是spark工程,输出路劲不能有重复,根据文件名的命名规则,开头为大写字母,结尾是数字,为了增加复杂性,引入了下划线“_”,最后经过测试生成的重复文件名的概率几乎为0,因为,在多次重复测试中,只有一次产生了重复,重复的条件也是一千万中有一次重复,所以说概率极小。不说了,看代码:package randomString;
2016-09-01 20:23:46 5160
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人