【数据分析与数据挖掘】四、多因子与复合分析(上)

这一章内容:属性与属性之间常见的联系。

理论铺垫:

  1. 假设检验与方差检验;
  2. 相关系数:皮尔逊、斯皮尔曼;
  3. 回归:线性回归;
  4. PCA与奇异值分解;

1.假设检验

概念做出一个假设,根据数据已知的分布性质,来推断该假设成立的概率有多大。

过程

step1建立原假设H0,H0的反命题为H1,也叫备择假设。一般情况下,原假设的分布是符合该分布的,而备择假设是不符合该分布的。

step2:选择检验统计量:根据数据的均值方差等性质构造的一个转换函数,构造的目的是便于判断数据是否符合某种分布。例如用某些数据减去均值,再除以标准差,这样判断转换后的统计量是否符合标准正态分布,既可以判断数据的分布是否是标准正太分布的概率了。

step3:根据显著性水平(一般为0.05),确定拒绝域。

接受假设的失真程度的最大限度,显示度水平和相似度的加和为1。例如,确定了某数据的分布有95%的可能性属于某 一个分布,那么它的显著性水平就是5%。

显著性水平一般是人为定的一个值,这个值定的越低,那么说明数据分布符合某种分布的契合程度要求就越高,一般取 0.05,也就是说,要求数据有95%的可能与某分布一致。

一旦确定了显著性水平,就可以画出与这个分布相似度比较高的区域,这叫接受域。接受域以外的区域,就是拒绝域,如果检验统计量落入了拒绝域,那么H0就可以认为是假的,也就是可以被拒绝的假设。

step4:计算p值或者样本统计值,作出判断。

判断的思路有两种,一是计算数据的分布区间,看这个区间是不是包含了我们要比较的特征。二是计算p值,直接和显著性水平进行比较。p值指的是结果更差的概率,如果p值落入了拒绝域,那么说明这个假设是不成立的。

例子:

2.卡方检验

公式:

例如:

卡方值和P值对应表:

从表中可以看出,P值取0.05的话,卡方值应该不大于3.841,而上面的卡方值是129.3,明显大于3.841,所以可以拒绝原假设,即化妆与性别没有很大关系可以被拒绝掉。

卡方检验常用来检验两个因素之间有没有比较强的联系。

3.方差检验

例如:

p值小于0.05,拒绝原假设,说明三种电池的均值是有差异的。

4.相关系数

正相关,负相关,不相关

常用的相关系数有两种:Pearson相关系数,Spearman相关系数

(1)Pearson相关系数

(2)Spearman相关系数

Spearman相关系数和具体的数值关系不大,和数值的排序有关系,所以用于相对比较的情况下比较适合

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值