Apache Spark 机器学习基本统计 1

最新推荐文章于 2023-10-29 09:09:16 发布

wangys2006

最新推荐文章于 2023-10-29 09:09:16 发布

阅读量483

点赞数 1

分类专栏：人工智能技术与架构文章标签： spark 人工智能

本文链接：https://blog.csdn.net/uesowys/article/details/128644369

版权

人工智能技术与架构专栏收录该内容

29 篇文章 3 订阅

订阅专栏

1 基本概念

相关性，是指两个变量或者两个系列变量的关联程度，也就是，其中一方变量的变化会影响另外一方变量的变化。

相关性分为三种关系，正相关、负相关以及不相关。

正相关，从单调递增的角度看，其中一方变量的最大值对应另外一方变量的最大值。

负相关，从单调递增的角度看，其中一方变量的最大值对应另外一方变量的最小值。

不相关，不管从任何角度看，其中一方变量与另外一方变量没有关系，也就是，双方变量的变化都不会相互影响。

相关系数，用于度量两个变量或者两个不同系列变量之间的相关程度的数值，简单的相关系数的计算公式的定义如下所示：

如上所示，r表示X与Y之间的相关系数，r的绝对小于或者等于1，其中，Cov(X,Y)是协方差，Var[X]是X的方差，Var[Y]是Y的方差。r的绝对值越大，则X与Y的相关程度越大，r的绝对值越小，则X与Y的相关程度越小，当r等于0，则X与Y之间不相关。

如上所示，是某企业的广告投入与产出的数据。

如上所示，计算其相关系数是0.9942，说明广告投入与产出之间发生高度的正相关的关系。

协方差，用于衡量两个变量之间的总体误差，其计算公式的定义如下所示：

如上所示，E|X|与E|Y|是两个随机变量X与Y的期望值。

方差，用于计算每一个变量与总体均数之间的差异，其计算公式的定义如下所示：

如上所示，S2的平方是样本方差，X为变量，X—为样本均值，n为样本数。

标准差，方差等于标准差的平方，其计算公式的定义如下所示：

如上所示，标准差的S与方差的S是表示相同的度量。

皮尔森相关系数（Pearson’s correlation），是用于度量两个变量或者两个系列变量X与Y之间的相关性，其计算公式的定义如下所示：

如上所示，Xi与Yi是表示样本X与样本Y，其中，X—与Y—分别表示X与Y的均值。

斯皮尔曼相关系数（Spearman’s correlation），是对样本数据从单调的角度划分为等级，再按照样本数据的等级计算皮尔森相关系数，其计算公式的定义如下所示：

如上所示，其计算公式与皮尔森相关系数的计算公式一样，使用单调的方式按照等级划分样本数据如下所示：

假设检验（Hypothesis testing），该统计分析思想是基于小概率事件作为判断依据，而对提前做出假设的事件H0进行判断，如果小概率事件发生，则假设的事件H0错误，如果小概率的事件不发生，则假设的事件H0正确，因此，小概率事件发生的概率越小，则假设的事件H0越有说服力。

卡方检验（ChiSquareTest），该统计分析思想是统计数据样本的实际观测值与推断值之间的偏离程度，实际观测值与推断值之间的偏离程度决定卡方值的大小，如果卡方值越大，二者的偏差程度就越大，如果卡方值越小，二者的偏差程度就越小，如果二者的值完全相等，则卡方值等于0。

皮尔森卡方检验（Pearson's chi-squared test），该卡方检验是最有名的卡方检验方法之一，而独立性检验是该检验最常用的手段。

独立性检验（X2），根据次数判断两类数据样本是彼此相关的或者是相互独立的，其检验方式的描述是，假设存在两个分类变量X与Y，X对应的列表是{x1,x2}，Y对应的列表是{y1,y2}，则其计算方式如下所示：

如上所示，计算出随机变量K2 的值，K2 的平方越大，说明X与Y有关系的可能性越大，常用的对照表如下所示：

如上所示，如果K2的值等于6.109，则由以上的对照表可知，5.024≤6.109<6.635，从而，X与Y有关系的概率等于1-0.025等于0.975，即发生的概率是97.5%，因此，X与Y之间有很大可能发生关联关系。

2 基本统计

Apache Spark提供的基本统计包括相关性、假设检验以及汇总，以下章节分别从代码的角度描述这些基本的统计，Spark技术框架目前支持的开发语言包括Python、Java以及R语言。

相关性

相关性的计算是统计学领域中常用的操作，用于分析不同两个变量之间的相关程度。Spark的机器学习技术框架（spark.ml）提供对多系列数据集进行双相关系数的计算，其中包括前面所描述的皮尔森相关系数（Pearson’s correlation）、斯皮尔曼相关系数（Spearman’s correlation）。

如上所示，是Spark技术框架提供Java语言的机器学习的工具集，对输入的数据样本集进行皮尔森相关系数（Pearson’s correlation）、斯皮尔曼相关系数（Spearman’s correlation）的计算。

其中，data是创建了一个4行记录的数据集，每行记录包括4个double类型元素，sparse函数是存储稀疏的列表，稀疏存储方式不存储0值的元素，当列表中的0值元素个数很多的时候，使用稀疏存储方式可以充分利用存储空间，dense函数是存储稠密列表，稠密存储方式存储0值的元素，当列表中的0值元素个数很少的时候，使用稠密存储方式可以提供数据存取的效率。

其中，schema是定义一个数据类型，相当于一个数据库对应的数据表，其字段是features。df是转换成数据框架的形式处理数据集。

其中，Correlation.corr对输入的特征数据集进行相关度的计算，r1输出皮尔森相关系数，r2输出斯皮尔曼相关系数。

假设检验

该统计分析方式在统计学上是一个非常强大的工具，用于检测不同数据样本集合之间是否是显著地发生关联，或者是偶然地发生关联。Spark.ml目前支持皮尔森独立性卡方检测，对每个特征与标签的对应关系进行皮尔森独立性检测，其代码如下所示：