数理统计复习笔记六——Pearson卡方拟合优度检验

最新推荐文章于 2024-06-06 18:23:23 发布

米法·

最新推荐文章于 2024-06-06 18:23:23 发布

阅读量4.7k

点赞数 3

分类专栏：概率论与数理统计文章标签：统计学数据分析

本文链接：https://blog.csdn.net/TSzero/article/details/119205302

版权

概率论与数理统计专栏收录该内容

23 篇文章 19 订阅

订阅专栏

一、分类数据的 $\chi^2$ 拟合优度检验

1.1 一般情形下的检验问题

根据某项指标，总体被分为 $r$ 类： $A_1,\cdots,A_r$ 。此时我们最关心的是关于各类所占的比例的假设 $H_0:第i类A_i所占的比例为p_i,i=1,\cdots,r\tag1$
其中， $\sum\limits_{i=1}^rp_i=1$ 。

记 $X_1,\cdots,X_n$ 为从此总体抽出的 $n$ 个 $I I D$ 总体，且以 $n_i$ 记这 $n$ 个样本中属于 $A_i$ 的样本个数。当 $H_0$ 成立时，在 $n$ 个样本中属于 $A_i$ 类的理论个数或期望个数为 $np_i$ ，而我们实际观测到的值为 $n_i$ ，故当 $H_0$ 成立时， $n_i$ 与 $np_i$ 应相差不大。于是，可以用统计量 $\chi^2=\sum_{i=1}^r\frac{(n_i-np_i)^2}{np_i}\tag2$ 来衡量理论个数与实际观测值之间的差别，并且其拒绝域为 $\{\chi^2\ge c\}$

1.2 定理

为了控制上述检验犯第一类错误的概率，我们必须知道此检验统计量的零分布，为此有以下定理：

在 $H_0$ 成立且 $p_i$ 均已知时，我们有 $\chi^2\to\chi^2(r-1)\tag3$

所以可以得到拒绝域为 $W=\{\chi^2\ge\chi^2_\alpha(r-1)\}\tag4$

二、关于分布的假设

2.1 完全已知的分布

对于一般的分布假设 $H_0:F(x)\equiv F_0(x)\tag5$
其中， $F_0(x)$ 为一个完全已知的分布函数（形式和参数均已知）

此时，可以把 $(-\infty, \infty)$ （或样本空间）分成 $r$ 个互不相交的区间： $(-\infty, \infty)=\bigcup_{i=1}^rI_i=(-\infty,a_1)\cup[a_1,a_2)\cup\cdots\cup[a_{r-1},\infty)\tag6$
且以 $n_i$ 记落在第 $i$ 个区间 $I_i$ 内的样本个数，再记 $p_1=F(a_1), p_2=F(a_2)-F(a_1),\cdots,p_r=1-F(a_{r-1})\tag7$ $p_{10}=F_0(a_1), p_{20}=F_0(a_2)-F_0(a_1),\cdots,p_{r0}=1-F_0(a_{r-1})\tag8$
则我们可以用统计量 $\chi^2=\sum_{i=1}^r\frac{(n_i-np_{i0})^2}{np_{i0}}\tag9$
来检验。

我们检验的假设为 $H_0:p_i=p_{i0}$ ，所以如果分点选的不是很好，可能会把两个有一定差别的分布检验为没有区别
在一般情形下，分点的选取应保证落在每个区间内的样本点个数不小于 $5$ ，且总的样本容量不应小于 $30$
当 $F_0$ 中含有未知参数时，上述拟合优度检验无法实施

2.2 带有未知参数的 $\chi^2$ 拟合优度检验

在许多实际问题中，我们感兴趣的假设可能为 $H_0:F(x)\equiv F_0(x;\theta_1,\cdots,\theta_k)\tag{10}$
其中， $F_0(x;\theta_1,\cdots,\theta_k)$ 是依赖于 $k$ 个未知参数的形式已知的分布，如一般的正态分布，二项分布等。

Fisher指出，当 $H_0$ 成立时，可先用MLE估计未知参数，可以得到 $\hat p_{i0}$ 的值，之后可以利用统计量 $\chi^2=\sum_{i=1}^r\frac{(n_i-n\hat p_{i0})^2}{n\hat p_{i0}}\tag{11}$
作为检验统计量，且当 $H_0$ 成立时及 $n\to\infty$ 时，仍有 $\chi^2\to\chi^2(r-1-k)$

米法·

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
2
评论
数理统计复习笔记六——Pearson卡方拟合优度检验

一、分类数据的χ2\chi^2χ2拟合优度检验1.1 一般情形下的检验问题根据某项指标，总体被分为rrr类：A1,⋯ ,ArA_1,\cdots,A_rA1,⋯,Ar。此时我们最关心的是关于各类所占的比例的假设H0:第i类Ai所占的比例为pi,i=1,⋯ ,r(1)H_0:第i类A_i所占的比例为p_i,i=1,\cdots,r\tag1H0:第i类Ai所占的比例为pi,i=1,⋯,r(1)其中，∑i=1rpi=1\sum\limits_{i=1}^rp_i=1i=1∑rpi=1。记X
复制链接

扫一扫