机器学习基础--卡方检验

最新推荐文章于 2023-12-14 20:32:52 发布

真的这么神奇吗

最新推荐文章于 2023-12-14 20:32:52 发布

阅读量1.1k

点赞数 2

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/lose_user___/article/details/127585490

版权

卡方检验

在统计分析阶段的假设检验中提及到了卡方检验，是针对总体方差的检验

卡方检验的主要用途

两个率或两个构成比比较的卡方检验
多个率或多个构成比比价的卡方检验
分类资料的相关分析

卡方检验的基本原理

H₀：观察频数与期望频数没有差别
其原理为考察基于H₀的理论频数分布和实际频数分布间的差异大小，据此求出相应的P值。

卡方统计量的理解：

当观察频数与期望频数完全一致时，卡方值为0
观察频数与期望频数越接近，两者之间的差异越小，卡方值越小
观察频数与期望频数差异越大，卡方值越大
卡方值的大小也和自由度有关

在这里插入图片描述

卡方检验的statsmodels实现

import pandas as pd 
import statsmodels.stats.contingency_tables as tbl

# 读入文件
home = pd.read_excel("home_income.xlsx")
home.head()

# 抽取需要的数据
pd.crosstab(home.Ts9,home.O1)# 观察相应的交叉表

# 考察不同收入级别的家庭其轿车拥有率
table = tbl.Table(pd.crosstab(home.Ts9,home.O1))

res = table.test_nominal_association()    # 卡方检验
print(f"卡方值：{res.statistic}" )
print(f"自由度：{res.df}")
print(f"P值：{res.pvalue}") # 格式化后的P值，如果结果为0.0000001，会格式化为0

配对卡方检验

McNemar's检验（配对卡方检验）用于分析两个相关率的变化是否有统计学意义

分析思路

H₀:两种方法阳性检出率无差别，即b单元格=c单元格
对同一个体，分别有两次不同的测量，并最终构成了两组数据，因此研究框架是自身配对设计
求出各对的差值，然后考察样本中差值的分布是否按照H₀假设的情况对称分布
主对角线上的样本，两种检验方法的结论相同
非主对角线上的单元格才携带检验方法的差异信息
根据H₀得到b、c两格的理论数均为(b+c)/2,对应的配对检验统计量，经过化简后是：

x2=(b−c)2/(b+c)

代码实现

statsmodels.stats.contingency_tables中常用的配对卡方的分析使用：

tbl.SquareTable 用于分析行列变量类别相同的对称结构方表（近似结果）
tbl.mcnemar 用于分析配对四格表（确切概率结果）

import numpy as np
import pandas as pd
import statsmodels.stats.contingency_tables as tbl

table = tbl.SquareTable(np.array([[56,35],[21,28]]))
table

# 输出汇总结果
print(table.summary())

# 只输出配对卡方检验的结果
print(table.symmetry())

table = tbl.mcnemar(pd.DataFrame([[56,35],[21,28]]))
table.pvalue

RR与OR

RR(Relative Risk)——相对危险度

表示两种情况下发病密度或者说发病概率之比
P_t：实验组人群反应阳性概率
P_c：对照组人群反应阳性概率
如果RR > 1，说明相应的自变量取值增加，会导致个体发病/死亡风险增加若干倍，例如：吸烟者的发病概率是非吸烟者的5倍
RR在医学中得到了极为广泛的应用
RR的计算条件比较苛刻（观察周期长）

OR(Odds Ratio)——优势比

为下列两种比例之比
反应阳性人群中实验因素有无的比例 a/b
反应阴性人群中实验因素有无的比例 c/d
OR可以间接反映关联强度，但是理解上比较困难
发病概率较低时，OR往往近似的在按照RR的含义进行解释和使用

代码实现

scipy.stats.fisher_exact()中可以计算OR值，相应的检验P值则是确切概率法的P值
OR, P = ss.fisher_exact(pd.crosstab(home.Ts9, home.O1))

statsmodels的实现方式

import numpy as np
import statsmodels.stats.contingency_tables as tbl
# 这里必须使用np.array函数进行数组转换，否则后续计算会出问题
table = tbl.Table2x2(np.array(pd.crosstab(home.Ts9, home.O1)))
print(table.oddsratio) # OR值
print(table.summary()) # 汇总信息

真的这么神奇吗

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础--卡方检验

相关分析是用于考察变量间数量关系密切程度的分析方法。例如：身高和体重的关系。几乎所有涉及到多个变量的假设检验方法，都可以看做这些变量间的相关性分析。t检验：分组变量与连续因变量之间的相关分析卡方检验：行、列分类变量间的关联性分析聚类分析：案例间的关联性分析多变量回归：因变量和一组自变量的关联性分析。
复制链接

扫一扫