Apache Spark MLlib学习笔记（三）MLlib统计指标之关联/抽样/汇总

最新推荐文章于 2023-05-02 16:57:17 发布

yang1young

最新推荐文章于 2023-05-02 16:57:17 发布

阅读量3.5k

点赞数

分类专栏： spark生态系统文章标签： apache spark 源码统计

本文链接：https://blog.csdn.net/qiao1245/article/details/44855853

版权

spark生态系统专栏收录该内容

8 篇文章 0 订阅

订阅专栏

决策树利用树形结构进行分类和回归，构建树的指标有多种，其中一种就是方差。在介绍决策树类算法前，首先介绍一下Spark MLlib中基本的统计。Spark官方提供了summary statistics、correlations、stratified sampling、hypothesis testing、random data generation。即汇总统计、关联、分层抽样、假设检验、随机数据生成。参考文档如下:
http://spark.apache.org/docs/latest/mllib-statistics.html
1、summary statistics（汇总统计）
Summary statistics提供了基于列的统计信息，包括6个统计量：均值、方差、非零统计量个数、总数、最小值、最大值。

import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics}

val observations: RDD[Vector] = ... //  Vectors RDD

// 计算列统计量
val summary: MultivariateStatisticalSummary = Statistics.colStats(observations)
println(summary.mean) // 均值
println(summary.variance) // 方差
println(summary.numNonzeros) // 列非零值

2、Correlations（关联）
计算两个数据序列的相关度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数值越接近1或者-1，则表示数据越可进行线性拟合。目前Spark支持两种相关性系数：皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman）。

import org.apache.spark.SparkContext
import org.apache.spark.mllib.linalg._
import org.apache.spark.mllib.stat.Statistics

val sc: SparkContext = ...

val seriesX: RDD[Double] = ... // 序列1
val seriesY: RDD[Double] = ... // 必须和序列1具有相同的分区和数量

//  使用Pearson方法计算相关度， 若写 "spearman" 则使用 Spearman 方法。默认使用Pearson方法。
val correlation: Double = Statistics.corr(seriesX, seriesY, "pearson")

val data: RDD[Vector] = ... //  Vector 是行向量

// 使用 Pearson方法计算相关度矩阵，默认使用Pearson方法。
val correlMatrix: Matrix = Statistics.corr(data, "pearson")

3、Stratified sampling（分层抽样）
一个根据Key来抽样的功能，可以为每个key设置其被选中的概率。具体见代码以及注释
和其他统计方法不同，sampleByKey 和 sampleByKeyExact方法可以在RDD键值对上被执行。key可以被想象成一个标签和作为实体属性的值。例如，key可以是男女、文件编号，实体属性可以使人口中的年龄、文件中的单词。sampleByKey方法通过随机方式决定某个观测值是否被采样，因此需要提供一个预期采样数量。sampleByKeyExact 方法比使用简单随机抽样的sampleByKey方法需要更多的资源，但是它可以保证采样大小的置信区间为99.99%。

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.rdd.PairRDDFunctions

val sc: SparkContext = ...

val data = ... //  RDD[(K, V)] ，任意键值对
val fractions: Map[K, Double] = ... // 制定每个键的比例

// 进行采样
val approxSample = data.sampleByKey(withReplacement = false, fractions)
val exactSample = data.sampleByKeyExact(withReplacement = false, fractions)

4、Hypothesis testing（假设检验）
Spark目前支持皮尔森卡方检测（Pearson’s chi-squared tests），包括适配度检定和独立性检定。“适配度检定”验证一组观察值的次数分配是否异于理论上的分配。“独立性检定”验证从两个变数抽出的配对观察值组是否互相独立（例如：每次都从A国和B国各抽一个人，看他们的反应是否与国籍无关）。

import org.apache.spark.SparkContext
import org.apache.spark.mllib.linalg._
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.stat.Statistics._

val sc: SparkContext = ...

val vec: Vector = ... //由事件发生概率组成

// 计算适配度
val goodnessOfFitTestResult = Statistics.chiSqTest(vec)
println(goodnessOfFitTestResult)
 // 汇总结果，包括p值，自由度，检验统计量，所使用的方法，以及零假设。
val mat: Matrix = ... // 应急矩阵

// 根据输入矩阵计算 Pearson独立性检验
val independenceTestResult = Statistics.chiSqTest(mat) 
println(independenceTestResult)

val obs: RDD[LabeledPoint] = ... // (feature, label) 键值对 
val featureTestResults: Array[ChiSqTestResult] = Statistics.chiSqTest(obs)
var i = 1
featureTestResults.foreach { result =>
    println(s"Column $i:\n$result")
    i += 1
} // 输出结果

5、Random data generation（随机数据生成）
随机数据对于随机算法、原型设计和检验十分有用。Random data generation用于随机数的生成。Random RDDs包下现支持正态分布、泊松分布和均匀分布三种分布方式。
RandomRDDs提供随机double RDDS或vector RDDS。下面的例子中生成一个随机double RDD，其值是标准正态分布N（0，1），然后将其映射到N（1，4）。

import org.apache.spark.SparkContext
import org.apache.spark.mllib.random.RandomRDDs._

val sc: SparkContext = ...

// 生成一个随机的包含100w i.i.d值的double RDD，他们服从正态分布`N(0, 1)`, 并均匀的分布在 10 个分区。
val u = normalRDD(sc, 1000000L, 10)
// 将RDD映射到`N(1, 4)`.
val v = u.map(x => 1.0 + 2.0 * x)

yang1young

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Apache Spark MLlib学习笔记（三）MLlib统计指标之关联/抽样/汇总

决策树利用树形结构进行分类和回归，构建树的指标有多种，其中一种就是方差。在介绍决策树类算法前，首先介绍一下Spark MLlib中基本的统计。Spark官方提供了summary statistics、correlations、stratified sampling、hypothesis testing、random data generation。即汇总统计、关联、分层抽样、假设检验、随机数据生成。
复制链接

扫一扫

专栏目录