这一章内容:属性与属性之间常见的联系。
理论铺垫:
- 假设检验与方差检验;
- 相关系数:皮尔逊、斯皮尔曼;
- 回归:线性回归;
- PCA与奇异值分解;
1.假设检验
概念:做出一个假设,根据数据已知的分布性质,来推断该假设成立的概率有多大。
过程:
step1:建立原假设H0,H0的反命题为H1,也叫备择假设。一般情况下,原假设的分布是符合该分布的,而备择假设是不符合该分布的。
step2:选择检验统计量:根据数据的均值方差等性质构造的一个转换函数,构造的目的是便于判断数据是否符合某种分布。例如用某些数据减去均值,再除以标准差,这样判断转换后的统计量是否符合标准正态分布,既可以判断数据的分布是否是标准正太分布的概率了。
step3:根据显著性水平(一般为0.05),确定拒绝域。
接受假设的失真程度的最大限度,显示度水平和相似度的加和为1。例如,确定了某数据的分布有95%的可能性属于某 一个分布,那么它的显著性水平就是5%。
显著性水平一般是人为定的一个值,这个值定的越低,那么说明数据分布符合某种分布的契合程度要求就越高,一般取 0.05,也就是说,要求数据有95%的可能与某分布一致。
一旦确定了显著性水平,就可以画出与这个分布相似度比较高的区域,这叫接受域。接受域以外的区域,就是拒绝域,如果检验统计量落入了拒绝域,那么H0就可以认为是假的,也就是可以被拒绝的假设。
step4:计算p值或者样本统计值,作出判断。
判断的思路有两种,一是计算数据的分布区间,看这个区间是不是包含了我们要比较的特征。二是计算p值,直接和显著性水平进行比较。p值指的是结果更差的概率,如果p值落入了拒绝域,那么说明这个假设是不成立的。
例子:
2.卡方检验
公式:
例如:
卡方值和P值对应表:
从表中可以看出,P值取0.05的话,卡方值应该不大于3.841,而上面的卡方值是129.3,明显大于3.841,所以可以拒绝原假设,即化妆与性别没有很大关系可以被拒绝掉。
卡方检验常用来检验两个因素之间有没有比较强的联系。
3.方差检验
例如:
p值小于0.05,拒绝原假设,说明三种电池的均值是有差异的。
4.相关系数
正相关,负相关,不相关
常用的相关系数有两种:Pearson相关系数,Spearman相关系数
(1)Pearson相关系数
(2)Spearman相关系数
Spearman相关系数和具体的数值关系不大,和数值的排序有关系,所以用于相对比较的情况下比较适合。