机器学习预备

卡方检验

 

注意
在统计分析阶段的假设检验中也提及到了卡方检验,那是针
" 单个总体方差的检验 " ;本章中的卡方检验是针对 " 分类变量
的比较

 

卡方检验的主要用途
两个率或两个构成比比较的卡方检验
多个率或多个构成比比较的卡方检验
分类资料的相关分析
卡方检验的基本原理
H 0 : 观察频数与期望频数没有差别
其原理为考察基于 H 0 的理论频数分布和实际频数分布间的差异大
小,据此求出相应的 P
案例:
所有受访家庭会按照家庭年收入被分为低收入家庭和高收入家
庭两类,现希望考察不同收入级别的家庭其轿车拥有率是否相同

 

基于 H 0 成立,即观察频数和期望频数无差别,也就是两组变量
(家庭收入级别与是否拥有轿车)相互不产生影响,两组变量不相
关,如果检验 P 值很高,则接受 H 0 ;如果检验 P 值很低,则检验不通
过,观察频数和期望频数有差别,两组变量相关。

 

卡方统计量
卡方统计量的计算公式:

 

其中 A 为实际频数, E 为期望频数(理论频数)。
卡方统计量的理解:
当观察频数与期望频数完全一致时,卡方值为 0
观察频数与期望频数越接近,两者之间的差异越小,卡方值越小
观察频数与期望频数差异越大,卡方值越大
卡方值的大小也和自由度有关
卡方检验的 statsmodels 实现
案例:
所有受访家庭会按照家庭年收入被分为低收入家庭和高收入家
庭两类,现希望考察不同收入级别的家庭其轿车拥有率是否相同

 

statsmodels 中首先需要建立对应的列联表对象
class
statsmodels.stats.contingency_tables.Table(
 table
 shift_zeros = True : 如果有单元格频数为0,则所
有单元格频数一律+0.5防止计算溢出
)

Table 类的方法 :
test_nominal_association() 无序分类行、列变量的独立性检验
配对卡方检验
McNemar's 检验(配对卡方检验)用于分析 两个相关率的变化是否
有统计学意义
案例:
A B 两种方法检查已确诊的某种疾病患者 140 名, A 法检出 91
(65%) B 法检出 77 (55%) A B 两法一致的检出 56 (40%)
问哪种方法阳性检出率更高?

 

分析思路:
H 0 : 两种方法阳性检出率无差别,即 b 单元格 =c 单元格 8
对同一个体,分别有两次不同的测量,并最终构成了两组数据,
因此研究框架是自身配对设计
求出各对的差值,然后考察样本中差值的分布是否按照 H 0 假设
的情况对称分布
主对角线上的样本,两种检验方法的结论相同
非主对角线上的单元格才携带检验方法的差异信息
根据 H 0 得到 b c 两格的理论数均为 (b+c)/2, 对应的配对检验统计
量,经过化简后是:

一般在 b + c < 40 时,需用确切概率法进行检验,或者进行校正  

代码实现
statsmodels.stats.contingency_tables 中常用的配对卡方的分析使
用:
1 tbl.SquareTable 用于分析行列变量类别相同的对称结构方表
(近似结果)
2 tbl.mcnemar 用于分析配对四格表(确切概率结果)
SquareTable 类分析
import numpy as np
import statsmodels.stats.contingency_tables as
tbl
# 必须为方阵结构数据
table = tbl.SquareTable(np.array([[56, 35],
[21, 28]]))
print(table.summary())   # 打印汇总信息
print(table.symmetry())  # 只打印symmetry

mcnemar 类分析
import statsmodels.stats.contingency_tables as
tbl
table = tbl.mcnemar(pd.DataFrame([[56, 35],
[21, 28]]))
print(table.pvalue)  # 确切概率结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值