概率统计Python计算：假设检验应用——联列表中相互独立性的检验

戌崂石

已于 2024-05-22 10:22:08 修改

阅读量1.6k

点赞数 3

分类专栏：概率统计文章标签：数据分析概率论

于 2021-07-06 15:09:09 首次发布

本文链接：https://blog.csdn.net/u012958850/article/details/118463441

版权

概率统计专栏收录该内容

76 篇文章 29 订阅

订阅专栏

在这里插入图片描述
设总体的所有个体可按两种不同的标志进行分类，常常希望通过随机抽样检验这两种标志是否相互独立。为解决此类问题，通常将取得的样本 $(X_1,X_2,\cdots,X_n)$ 按第一种标志分成 $u$ 个类，按第二种标志分成 $v$ 个类（ $u\cdot v\leq n$ ），按指标统计分属不同标志分类的频数 $f_{ij}$ ：为样本中第一种标志属于第 $i$ 类且第二种标志属于第 $j$ 类的数据个数。这样构成如下的联列表

	1	$\cdots$	$j$	$\cdots$	$v$
1	$f_{11}$	$\cdots$	$f_{1j}$	$\cdots$	$f_{1v}$
$\vdots$			$\cdots\cdots$
$i$	$f_{i1}$	$\cdots$	$f_{ij}$	$\cdots$	$f_{iv}$
$\vdots$			$\cdots\cdots$
$u$	$f_{u1}$	$\cdots$	$f_{uj}$	$\cdots$	$f_{uv}$

根据联列表，记 $f_{i\cdot}=\sum\limits_{j=1}^vf_{ij}$ ， $i=1,2,\cdots,u$ 和 $f_{\cdot j}=\sum\limits_{i=1}^uf_{ij}$ ， $j=1,2,\cdots,v$ 。两个标志相互独立的假设可表为
$H_0: \frac{f_{ij}}{n}=\frac{f_{i\cdot}}{n}\frac{f_{\cdot j}}{n},1\leq i\leq u,1\leq j\leq v.$
与分布拟合检验相仿，当假设 $H_0$ 为真时， $\frac{f_{ij}}{n}$ 与 $\frac{f_{i\cdot}}{n}\cdot\frac{f_{\cdot j}}{n}$ 应当比较接近，亦即差异平方和 $\sum\limits_{i=1}^u\sum\limits_{j=1}^v\left(f_{ij}-\frac{f_{i\cdot}f_{\cdot j}}{n}\right)^2$ 很小。构造统计量
$\chi^2=\sum\limits_{i=1}^u\sum\limits_{j=1}^v\frac{\left(f_{ij}-f_{i\cdot}f_{\cdot j}/n\right)^2}{f_{i\cdot}f_{\cdot j}/n}$
则可证明当 $n$ 很大且 $H_0$ 为真时， $\chi^2$ 近似服从 $\chi^2((u-1)(v-1))$ 分布。于是当 $n$ 很大时，为在显著水平 $\alpha$ 下检验假设 $H_0:$ “两个标志相互独立”，只需检验上述统计量是否满足 $\chi^2<\chi^2_{\alpha}((u-1)(v-1))$ ，满足则接受假设，否则拒绝假设。
可见，联列表中相互独立性检验问题是分布拟合检验问题的特例：频数序列为 $f_{ij}$ ，假设分布概率序列换成 $\frac{f_{i\cdot}f_{\cdot j}}{n}$ ， $i=1,2,\cdots,u,j=1,2,\cdots,v$ ， $r$ 为 $u + v - 2$ 。故仍然可以利用scipy.stats的chisquare函数进行计算。需要注意的是，要把表示 $f_{ij}$ 和 $f_{i\cdot}\cdot f_{\cdot j}$ 的 $u\times v$ 的矩阵，转换成含有 $uv$ 个元素的数组。
例1为了了解某种药品对于某种疾病的疗效是否与患者的年龄有关，共抽查了300名患者。将疗效分成“显著”、“一般”、“较差”三个等级；将年龄分成“儿童”、“中青年”、“老年”三个等级，得到如下联列表

	儿童	中青年	老年
显著	58	38	32
一般	2	44	45
较差	23	18	14

要在显著水平 $\alpha=0.05$ 下检验假设“药品疗效与患者年龄相互独立”。
解：下列代码完成本例计算

from scipy.stats import chisquare           #导入chisquare
import numpy as np                          #导入numpy
alpha=0.05                                  #显著水平
f=np.array([[58, 38, 32],                   #联列表
            [28, 44, 45],
            [23, 18, 14]])
(u, v)=f.shape                              #联列表结构
n=f.sum()                                   #样本容量
fi, fj=margDist(f)                          #边缘分布
fij=fi*fj/n                                 #假设概率序列
_, pvalue=chisquare(f.reshape(u*v,),        #计算假设检验p值
                       fij.reshape(u*v,),
                       ddof=u+v-2)
print('H0 is %s'%(pvalue>=alpha))

程序的第3~6行按题面设置各项数据。第7行获取联列表结构行数u和列数v。第8行获取样本容量n。第9行调用函数margDist（详见博文《离散型2-维随机向量的联合分布律及边缘分布》），计算边缘分布序列fi和fj。第10行计算假设分布概率序列fij。第11~13行调用chisqaure函数计算检验p值。注意传递给参数f_obs和f_exp的是矩阵f和fij的扁平化结果：调用各自的reshape(u*v,)，将矩阵转换成数组。运行程序，输出

H0 is False.

表示拒绝假设。即在显著水平 $\alpha=0.05$ 下认为疗效与患者年龄有关。
写博不易，敬请支持：
如果阅读本文于您有所获，敬请点赞、评论、收藏，谢谢大家的支持！
代码诚可贵，原理价更高。若为AI学，读正版书好。
返回《导引》

戌崂石

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
概率统计Python计算：假设检验应用——联列表中相互独立性的检验

On at least one occasion statistical estimation has been used for espionage purpose. During Wold War II, a very simple statiscal procedure was developed for estimating German war production. It was based on serial numbers (in our terminology, order statist
复制链接

扫一扫

专栏目录