与t检验和非参数检验的应用情形不同,卡方检验一般用于衡量给定的样本组是否符合某个分布律;有时这个被假设的分布律不会给定参数,而有时则会。除此之外,本文中要介绍的另外一种卡方检验的应用在于检验两个变量是否相互独立(例如检验发色与虹膜的颜色是否存在某种统计意义上的联系,或是相互独立)。
本文仍然是一篇考试复习笔记。。
零假设与备择假设选定规则:
一般规则:
注意:如果题干中给出了被假设内容的参数(例如:检验样本是否服从一个【方差为0.4】的正态分布),则应当将参数写在假设内容中!
期望值
首先,在卡方检验中,任何情况下期望值的总和都应当等于观察值的总和,即
另外,对于任何形式的卡方检验,都应当保障每一个数据的期望值≥5,即
检验统计量
在卡方检验中,检验统计量的统一计算标准是
临界值的计算
卡方分布是依赖自由度的分布,自由度记作
注意:方便起见次处及以下皆假设题干中给出的显著性水平为5%。
结论
与t检验中类似,卡方检验中如果检验统计量test statistic<临界值critical value则接受原假设;如果检验统计量test statistic≥临界值critical value则拒绝原假设,这与各类非参数检验中是恰恰相反的。
10.1中的情形:检验离散均匀分布
--即当假设内容为是否符合一个离散均匀分布discrete uniform distribution时所作的检验,常见于检验一个色子是否是公平的或是某几个事件是否是等可能的。
离散均匀分布形如:
步骤:
1.解释为何题目中的实际情况可以通过验证样本是否符合离散均匀分布得证.
2.提出假设
3.计算期望值表并计算检验统计量
4.计算临界值
5.对比临界值与检验统计量,给出结论.
10.2中的情形:对于两种离散分布的检验(二项分布与泊松分布)
- 二项分布
步骤:
1.求参数
2.提出假设.
3.对每一个
4.计算检验统计量.
5.查找临界值,这里由于在第一步估计了参数p,
6.对比检验统计量与临界值的大小,得出结论.
- 泊松分布
步骤:
1.求参数
2.提出假设.
3.对每一个
4.计算检验统计量.
5.查找临界值,这里由于在第一步估计了参数λ,
6.对比检验统计量与临界值的大小,得出结论.
10.3中的情形:对于两种连续分布的检验(正态分布与连续型均匀分布)
- 正态分布
步骤
1.求参数
2.提出假设,注意如果题干中有提及指定的参数,则应该标明,例如‘方差为0.4,均值为16的正态分布’。
3.对每一个
4.计算检验统计量.
5.查找临界值,这里由于在第一步估计了参数p,
6.对比检验统计量与临界值的大小,得出结论.
警告:
应当在做题过程中注意以下两种情况:
1.当对离散型数据使用正态分布时应当对区间进行连续性校正(
2.如果使用正态分布近似后出现期望值中的某些数据落在原区间之外的情况(即期望值总和<观察值总和)则应当将上下界更改为
例见课本exercise 10 C, Q7.
- 连续型均分布
即形如以下的分布,记作
步骤:
1.解释为何题目中的实际情况可以通过验证样本是否符合连续型均匀分布得证.
2.提出假设
3.计算期望值表并计算检验统计量.
4.计算临界值,由于无估计参数,故
5.对比临界值与检验统计量,给出结论.
注意:对于各类型的连续分布函数,则使用对PDF求常积分的方式计算对应区间的期望频数,尤其注意连续型均匀分布中各区间不相等的情况,此时不要直接用总频数除以区间个数。
10.4中的情形:Contingency Table(针对列联表的检验)
--与以上对于分布律的检验不同,此处检验的是两个变量是否具有统计相关性(表格行和列上的两个变量).首先应该知道我们把横行/行数记作i,纵行/列数记作j,
这种检验的期望值的计算建立在零假设中所阐述的‘假设行变量与列变量无关联’的前提上。期望值计算公式是
检验统计量的计算标准仍然不变。
而自由度的计算标准则更改为
计算过程中如果出现某处