Spark MLlib数据挖掘2--基础统计分析

最新推荐文章于 2023-05-12 09:52:45 发布

TKE_manman

最新推荐文章于 2023-05-12 09:52:45 发布

阅读量637

点赞数

分类专栏：大数据学习文章标签：大数据 spark 数据挖掘统计模型

本文链接：https://blog.csdn.net/qiaoqiaomanman/article/details/105185523

版权

Spark MLlib数据挖掘2–基础统计分析

一、Basic Statistics 简介
Basic Statistic是Spark MLlib提供专门用于进行大数据集群上的统计分析工具。
Basic Statistic为大数据集中数据预处理中数据的分析提供支撑方法，包括Summary statistics，Correlations，Stratified sampling，Hypothesis testing等数据分析方法。

二、Summery statistic (汇总统计)
汇总统计主要是对RDD数据集进行整体的统计性描述，主要通过调用colStats函数返回一个MultivariateStatisticalSummary 对象，包括：
count：long(大小)
max: vector (每列的最大值)
mean：vector(样本均值)
min：vector(每列最小值)
normL1: vector(每列的L1范数)
normL2: vector(每列的欧几里得数)
numNonzeros: Vector(每列非零向量的个数)
Variance：vector(样本方差)

三、Correlations (相关系数)
Correlations，相关度量，是反映变量之间相关关系密切程度的统计指标。相关系数绝对值越大(值越接近1或者-1)，则二者关系越密切，越可进行线性拟合；当取值为0表示不相关，取值为(0~-1]表示负相关，取值为(0, 1]表示正相关。
目前Spark支持两种相关性系数：皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。

四、Stratified Sampling (分层抽样

最低0.47元/天解锁文章

TKE_manman

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark MLlib数据挖掘2--基础统计分析

Spark MLlib数据挖掘2–基础统计分析一、Basic Statistics 简介Basic Statistic是Spark MLlib提供专门用于进行大数据集群上的统计分析工具。Basic Statistic为大数据集中数据预处理中数据的分析提供支撑方法，包括Summary statistics，Correlations，Stratified sampling，Hypothesis ...
复制链接

扫一扫

专栏目录