拉普拉斯分布_卡方分布与拟合优度的卡方检验是什么关系?

在分类数据拟合优度的

检验中,我们构造的检验统计量为:

该统计量

服从
分布。其中,
为某分类实际频数,
为零假设中的期望频数,
为分类类别的数量。

对于分类数据的拟合优度

检验,很多统计教科书介绍完上面这些就结束了。但相信初学者,尤其是非统计专业的初学者会和我一样,都存在一个疑问,式1中的检验统计量
为什么会服从
分布呢?

这个疑问非常自然,因为

分布的定义是:

“对于

,其中
。对
标准化并对这
个标准分平方求和得Q,那么Q服从自由度为
分布,记为
:“

对比式1和式2,好像他们的分子都是真实值减去期望值的平方,但分母一个是期望值,一个是方差,为什么

都会服从
分布?

更为关键的是,我们知道拟合优度的

检验是一个
非参数检验! 但在
分布的定义中,明显对自变量
做了正态分布的假设,这似乎与非参检验的特征相违背。

让我们先从类别为2的简单分类数据入手。


为类型
在总体中的
理论概率,那么,
即为类型
在总体中的理论概率,例如,当
时,我们的零假设为“在总体中,类型1和类型2等比例分布”。

设当前有一容量为

的样本,其中,类型1的个体出现频数为
,类型2的个体出现频数为

根据

检验的公式(式1),我们得到检验统计量:

这里再明确一次,我们的疑问是,为什么

会服从
分布。

让我们对式3进行变形:

式4的结果是不是有点熟悉?

根据棣莫夫-拉普拉斯定理(De Moivre-Laplace),

时,式4中的
会趋向于标准正态分布(实际中一般要求
即可)。

这就和式2中卡方分布的定义联系上了,显然,

参考资料(第一份资料中有对多分类情况的详细证明):

求大神证明皮尔逊统计量为什么服从卡方分布?​www.zhihu.com
苏克:卡方检验、t检验​zhuanlan.zhihu.com
1db50b4f2d94b28f02298c034ead17f9.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值