spark 相关性分析_基本统计 - correlations（相关性系数） - 《spark机器学习算法研究和源码分析》 - 书栈网 · BookStack...

最新推荐文章于 2021-01-17 17:37:29 发布

weixin_39575850

最新推荐文章于 2021-01-17 17:37:29 发布

阅读量627

点赞数

文章标签： spark 相关性分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39575850/article/details/113024916

版权

本文介绍了Spark MLlib中如何进行相关性分析，包括皮尔森(Pearson)和斯皮尔曼(Spearman)相关性计算。通过Statistics.corr方法，可以对RDD[Double]或RDD[Vector]数据集进行相关性分析，得到相关系数或相关性矩阵。在计算过程中，Spark会将数据转换为适合的格式，并提供了具体的计算逻辑和代码实现。

摘要由CSDN通过智能技术生成

相关性系数

计算两个数据集的相关性是统计中的常用操作。在MLlib中提供了计算多个数据集两两相关的方法。目前支持的相关性方法有皮尔森(Pearson)相关和斯皮尔曼(Spearman)相关。

Statistics提供方法计算数据集的相关性。根据输入的类型，两个RDD[Double]或者一个RDD[Vector]，输出将会是一个Double值或者相关性矩阵。下面是一个应用的例子。

importorg.apache.spark.SparkContext

importorg.apache.spark.mllib.linalg._

importorg.apache.spark.mllib.stat.Statistics

val sc:SparkContext=...

val seriesX:RDD[Double]=...// a series

val seriesY:RDD[Double]=...// must have the same number of partitions and cardinality as seriesX

// compute the correlation using Pearson's method. Enter "spearman" for Spearman's method. If a

// method is not specified, Pearson's method will be used by default.

val correlation:Double=Statistics.corr(seriesX,seriesY,"pearson")

val data:RDD[Vector]=...// note that each Vector is a row and not a column

// calculate the correlation matrix using Pearson's method. Use "spearman" for Spearman's method.

// If a method is not specified, Pearson's method will be used by default.

val correlMatrix:Matrix=Statistics.corr(data,"pearson")

这个例子中我们看到，计算相关性的入口函数是Statistics.corr，当输入的数据集是两个RDD[Double]时，它的实际实现是Corre

最低0.47元/天解锁文章

weixin_39575850

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 相关性分析_基本统计 - correlations（相关性系数） - 《spark机器学习算法研究和源码分析》 - 书栈网 · BookStack...

相关性系数计算两个数据集的相关性是统计中的常用操作。在MLlib中提供了计算多个数据集两两相关的方法。目前支持的相关性方法有皮尔森(Pearson)相关和斯皮尔曼(Spearman)相关。Statistics提供方法计算数据集的相关性。根据输入的类型，两个RDD[Double]或者一个RDD[Vector]，输出将会是一个Double值或者相关性矩阵。下面是一个应用的例子。importorg.ap...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。