Spark MLlib数据挖掘2–基础统计分析
一、Basic Statistics 简介
Basic Statistic是Spark MLlib提供专门用于进行大数据集群上的统计分析工具。
Basic Statistic为大数据集中数据预处理中数据的分析提供支撑方法,包括Summary statistics,Correlations,Stratified sampling,Hypothesis testing等数据分析方法。
二、Summery statistic (汇总统计)
汇总统计主要是对RDD数据集进行整体的统计性描述,主要通过调用colStats函数返回一个MultivariateStatisticalSummary 对象,包括:
count:long(大小)
max: vector (每列的最大值)
mean:vector(样本均值)
min:vector(每列最小值)
normL1: vector(每列的L1范数)
normL2: vector(每列的欧几里得数)
numNonzeros: Vector(每列非零向量的个数)
Variance:vector(样本方差)
三、Correlations (相关系数)
Correlations,相关度量,是反映变量之间相关关系密切程度的统计指标。相关系数绝对值越大(值越接近1或者-1),则二者关系越密切,越可进行线性拟合;当取值为0表示不相关,取值为(0~-1]表示负相关,取值为(0, 1]表示正相关。
目前Spark支持两种相关性系数:皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。
四、Stratified Sampling (分层抽样