Statistics类
数理统计中,基本统计量包括数据的平均值、方差,这是一组求数据统计量的基本内容。在MLlib中,统计量的计算主要用到Statistics类库
方法
- colStats:以列为基础计算统计量的基本数据
- corr:对两个数据集进行相关系数计算,根据参量的不同,返回值格式有差异
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.Statistics
import org.apache.spark.{SparkConf, SparkContext}
object StatisticsTest {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setMaster("local").setAppName("statistics")
val sc = new SparkContext(conf)
val rdd1= sc.makeRDD(List(1,2,3,5,4))
val rdd2 = rdd1.map{num=>Vectors.dense(num.toDouble)}
val result = Statistics.colStats(rdd2)
println(result.max)
println(result.min)
println(result.mean)//均值
println(result.count)
println(result.variance)//方差
println(result.numNonzeros)//返回不为0的个数
println(result.normL1)//返回曼哈顿距离
println(result.normL2)//返回欧式距离
}
}