Spark MLlib数据挖掘2--基础统计分析

Spark MLlib数据挖掘2–基础统计分析

一、Basic Statistics 简介
Basic Statistic是Spark MLlib提供专门用于进行大数据集群上的统计分析工具。
Basic Statistic为大数据集中数据预处理中数据的分析提供支撑方法,包括Summary statistics,Correlations,Stratified sampling,Hypothesis testing等数据分析方法。

二、Summery statistic (汇总统计)
汇总统计主要是对RDD数据集进行整体的统计性描述,主要通过调用colStats函数返回一个MultivariateStatisticalSummary 对象,包括:
count:long(大小)
max: vector (每列的最大值)
mean:vector(样本均值)
min:vector(每列最小值)
normL1: vector(每列的L1范数)
normL2: vector(每列的欧几里得数)
numNonzeros: Vector(每列非零向量的个数)
Variance:vector(样本方差)

三、Correlations (相关系数)
Correlations,相关度量,是反映变量之间相关关系密切程度的统计指标。相关系数绝对值越大(值越接近1或者-1),则二者关系越密切,越可进行线性拟合;当取值为0表示不相关,取值为(0~-1]表示负相关,取值为(0, 1]表示正相关。
目前Spark支持两种相关性系数:皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。

四、Stratified Sampling (分层抽样

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值