概率统计Python计算：假设检验应用——多个总体同分布检验

戌崂石

已于 2024-05-22 10:22:35 修改

阅读量990

点赞数 2

分类专栏：概率统计文章标签：数据分析统计学

于 2021-07-08 16:32:27 首次发布

本文链接：https://blog.csdn.net/u012958850/article/details/118575883

版权

概率统计专栏收录该内容

76 篇文章 29 订阅

订阅专栏

在这里插入图片描述
设有 $v$ 个总体 $X_1,X_2,\cdots,X_v$ ，从每个总体 $X_j$ 中取得样本 $X_{1j},X_{2j},\cdots,X_{n_jj}$ ， $j=1,2,\cdots,v$ 。将实数区间 $(-\infty,+\infty)$ 划分成 $u$ 个区间 $D_1,D_2,\cdots,D_u$ 。对每个总体 $X_j$ 的样本 $X_{1j},X_{2j},\cdots,X_{n_jj}$ ，统计落入 $D_i$ 中的数据个数 $f_{ij}$ ， $i=1,2,\cdots,u,j=1,2,\cdots,v$ 。得到表格

	1	$\cdots$	$j$	$\cdots$	$v$
1	$f_{11}$	$\cdots$	$f_{1j}$	$\cdots$	$f_{1v}$
$\vdots$			$\cdots\cdots$
$i$	$f_{i1}$	$\cdots$	$f_{ij}$	$\cdots$	$f_{iv}$
$\vdots$			$\cdots\cdots$
$u$	$f_{u1}$	$\cdots$	$f_{uj}$	$\cdots$	$f_{uv}$

希望在显著水平 $\alpha$ 下检验假设
$H_0:X_1,X_2,\cdots,X_v\text{具有相同分布}(H_1:\text{诸}X_i\text{的分布不尽相同}).$
记来自各总体的样本容量之和 $n=\sum\limits_{j=1}^vn_j$ ，所有落入区间 $D_i$ 中的数据频数 $f_{i\cdot}=\sum\limits_{j=1}^vf_{ij}$ ， $i=1,2,\cdots,u$ 。若 $H_0$ 为真，设诸 $X_j$ 所服从的共同分布落在在区间 $D_i$ 的概率 $p_i$ 应与数据频率 $\frac{f_{i\cdot}}{n}$ 接近， $i=1,2,\cdots,u$ 。考虑来自第 $j$ 个总体的样本落入 $D_i$ 个区间内的频数 $f_{ij}$ ，应与 $n_jp_i$ 相近，即在 $H_0$ 为真的前提下与 $n_j\cdot\frac{f_{i\cdot}}{n}$ 接近。然而， $n_j=\sum\limits_{i=1}^uf_{ij}=f_{\cdot j}$ 。故在 $H_0$ 为真的前提下， $f_{ij}$ 与 $\frac{f_{i\cdot}f_{\cdot j}}{n}$ 相近。即差异平方和 $\sum\limits_{i=1}^u\sum\limits_{j=1}^v\left(f_{ij}-\frac{f_{i\cdot}f_{\cdot j}}{n}\right)^2$ 很小。构造统计量
$\chi^2=\sum\limits_{i=1}^u\sum\limits_{j=1}^v\frac{\left(f_{ij}-f_{i\cdot}f_{\cdot j}/n\right)^2}{f_{i\cdot}f_{\cdot j}/n}$
当 $n$ 很大且 $H_0$ 为真时， $\chi^2$ 近似服从 $\chi^2((u-1)(v-1))$ 分布。于是当 $n$ 很大时，在显著水平 $\alpha$ 下可通过检验 $\chi^2<\chi^2_{\alpha}((u-1)(v-1))$ 是否满足来判断接受还是拒绝假设 $H_0$ 。
由此可见，有限个总体同分布检验与联列表中相互独立性检验的应用背景不同，但数据模型是一样的，所以也可以调用scipy.stats的chisquare函数来计算假设 $H_0$ 的检验。
例1类型相同的三艘船，在同一行线上行驶。测得各应力值范围内的波浪诱导纵向应力值的发生次数如下表所列：

应力值范围	船 $A$	船 $B$	船 $C$
$(150, 200)$	$1021$	$1073$	$1015$
$(200, 250)$	$229$	$256$	$265$
$(250, 350)$	$124$	$166$	$139$
$(350, 500)$	$34$	$44$	$25$
$500$ 以上	$9$	$11$	$4$

要在显著水平 $\alpha=0.05$ 下检验假设“这三艘船的应力服从同一分布”。
解：下列代码完成本例计算。

from scipy.stats import chisquare       #导入chisquare
import numpy as np                      #导入numpy
alpha=0.05                              #显著水平
f=np.array([[1021, 1073, 1015],         #样本分类数据
            [229, 256, 265],
            [124, 166, 139],
            [34, 44, 25],
            [9, 11, 4]])
(u, v)=f.shape                          #分类数据表结构
n=f.sum()                               #样本容量和
fi, fj=margDist(f)                      #边缘分布
fij=fi*fj/n                             #假设频率
chiq, pvalue=chisquare(f.reshape(u*v,), #计算假设检验p值
                       fij.reshape(u*v,),
                       ddof=u+v-2)
print('H0 is %s.'%(pvalue>=alpha))

程序的第3~8行按题面设置各项数据。第9行获取联列表结构行数u和列数v。第10行获取样本容量n。第11行调用函数margDist（详见博文《离散型2-维随机向量的联合分布律及边缘分布》），计算边缘分布序列fi和fj。第12行计算假设分布概率序列fij。第13~15行调用chisqaure函数计算检验p值。注意传递给参数f_obs和f_exp的是矩阵f和fij的扁平化结果：调用各自的reshape(u*v,)，将矩阵转换成数组。运行程序，输出

H0 is True.

表示接受假设。即在显著水平 $\alpha=0.05$ 下认为三艘船的应力服从同一分布。
写博不易，敬请支持：
如果阅读本文于您有所获，敬请点赞、评论、收藏，谢谢大家的支持！
代码诚可贵，原理价更高。若为AI学，读正版书好。
返回《导引》

戌崂石

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
概率统计Python计算：假设检验应用——多个总体同分布检验

设有vvv个总体X1,X2,⋯ ,XvX_1,X_2,\cdots,X_vX1,X2,⋯,Xv，从每个总体XjX_jXj中取得样本X1j,X2j,⋯ ,XnjjX_{1j},X_{2j},\cdots,X_{n_jj}X1j,X2j,⋯,Xnjj，j=1,2,⋯ ,vj=1,2,\cdots,vj=1,2,⋯,v。将实数区间(−∞,+∞)(-\infty,+\infty)(−∞,+∞)划分成uuu个区间D1,D2,⋯ ,DuD_1,D_2,\cdots,D_uD1,D2,⋯,Du。对每
复制链接

扫一扫

专栏目录