Spark Mllib数据挖掘入门二——数理统计基础

数理统计是伴随着概率论的发展而发展起来的一个数学分支。

1.统计量基本数据

colStats是Statistics类计算基本统计量的方法,其工作和计算是以列为基础进行计算,调用不同的方法可以获得不同的统计量值。基本统计量如下:

2.距离计算

normL1和normL2,代表着欧几里得距离曼哈段距离

欧几里得距离是一个常用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)

曼哈顿距离,标明两个点在标准坐标系上的绝对轴距总和。

3. 两组数据相关系数计算

反映两变量间线性相关关系的统计指标称为相关系数。常用的一般是皮尔逊相关系数斯皮尔曼相关系数用得比较少,但是其能够较好地反映不同数据集的趋势程度

皮尔逊相关系数按照线性数学的角度来理解,它比较复杂一点,可以看作是两组数据的向量夹角的余弦,用来描述两组数据的分开程度。
皮尔逊相关系数代表两组数据的余弦分开程度,表示随着数据量的增加,两组数据差别将增大。而斯皮尔曼相关系数更注重两组数据的拟合程度,即两组数据随数据量增加而增长曲线不变。

4.分层抽样  

  分层抽样是一种数据提取算法,先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本的统计学计算方法。这种方法以前常常用于数据量比较大,计算处理非常不方便进行的情况下。  


5.假设检验

卡方检验是一种常用的假设检验方法,能够较好地对数据集之间的拟合度、相关性和独立性进行验证。MLlib中规定常用的卡方检验使用的数据集一般为向量和矩阵。卡方校验使用皮尔逊算法对数据集进行计算,得到最终结果P值,一般情况,P<0.05 指数据集不存在显著性差异

6.随机数

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值