在分类数据拟合优度的
检验中,我们构造的检验统计量为:
该统计量
服从
的
分布。其中,
为某分类实际频数,
为零假设中的期望频数,
为分类类别的数量。
对于分类数据的拟合优度
检验,很多统计教科书介绍完上面这些就结束了。但相信初学者,尤其是非统计专业的初学者会和我一样,都存在一个疑问,式1中的检验统计量
为什么会服从
分布呢?
这个疑问非常自然,因为
分布的定义是:
“对于
,其中
。对
标准化并对这
个标准分平方求和得Q,那么Q服从自由度为
的
分布,记为
:“
对比式1和式2,好像他们的分子都是真实值减去期望值的平方,但分母一个是期望值,一个是方差,为什么
和
都会服从
分布?
更为关键的是,我们知道拟合优度的
检验是一个
非参数检验! 但在
分布的定义中,明显对自变量
做了正态分布的假设,这似乎与非参检验的特征相违背。
让我们先从类别为2的简单分类数据入手。
设
为类型
在总体中的
理论概率,那么,
即为类型
在总体中的理论概率,例如,当
时,我们的零假设为“在总体中,类型1和类型2等比例分布”。
设当前有一容量为
的样本,其中,类型1的个体出现频数为
,类型2的个体出现频数为
根据
检验的公式(式1),我们得到检验统计量:
这里再明确一次,我们的疑问是,为什么
会服从
分布。
让我们对式3进行变形:
式4的结果是不是有点熟悉?
根据棣莫夫-拉普拉斯定理(De Moivre-Laplace),当
时,式4中的
会趋向于标准正态分布(实际中一般要求
即可)。
这就和式2中卡方分布的定义联系上了,显然,
。
参考资料(第一份资料中有对多分类情况的详细证明):
求大神证明皮尔逊统计量为什么服从卡方分布?www.zhihu.com