1、Spark MLlib Statistics统计
Spark Mllib 统计模块代码结构如下:
1.1 列统计汇总
计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。
//读取数据,转换成RDD[Vector]类型
val data_path = "/home/jb-huangmeiling/sample_stat.txt"
val data = sc.textFile(data_path).map(_.split("\t")).map(f => f.map(f => f.toDouble))
val data1 = data.map(f => Vectors.dense(f))
//计算每列最大值、最小值、平均值、方差值、L1范数、L2范数
val stat1 = Statistics.colStats(data1)
stat1.max
stat1.min
stat1.mean
stat1.variance
stat1.normL1