一、分类数据的 χ 2 \chi^2 χ2拟合优度检验
1.1 一般情形下的检验问题
根据某项指标,总体被分为
r
r
r类:
A
1
,
⋯
,
A
r
A_1,\cdots,A_r
A1,⋯,Ar。此时我们最关心的是关于各类所占的比例的假设
H
0
:
第
i
类
A
i
所
占
的
比
例
为
p
i
,
i
=
1
,
⋯
,
r
(1)
H_0:第i类A_i所占的比例为p_i,i=1,\cdots,r\tag1
H0:第i类Ai所占的比例为pi,i=1,⋯,r(1)
其中,
∑
i
=
1
r
p
i
=
1
\sum\limits_{i=1}^rp_i=1
i=1∑rpi=1。
记 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn为从此总体抽出的 n n n个 I I D IID IID总体,且以 n i n_i ni记这 n n n个样本中属于 A i A_i Ai的样本个数。当 H 0 H_0 H0成立时,在 n n n个样本中属于 A i A_i Ai类的理论个数或期望个数为 n p i np_i npi,而我们实际观测到的值为 n i n_i ni,故当 H 0 H_0 H0成立时, n i n_i ni与 n p i np_i npi应相差不大。于是,可以用统计量 χ 2 = ∑ i = 1 r ( n i − n p i ) 2 n p i (2) \chi^2=\sum_{i=1}^r\frac{(n_i-np_i)^2}{np_i}\tag2 χ2=i=1∑rnpi(ni−npi)2(2)来衡量理论个数与实际观测值之间的差别,并且其拒绝域为 { χ 2 ≥ c } \{\chi^2\ge c\} {χ2≥c}
1.2 定理
为了控制上述检验犯第一类错误的概率,我们必须知道此检验统计量的零分布,为此有以下定理:
在 H 0 H_0 H0成立且 p i p_i pi均已知时,我们有 χ 2 → χ 2 ( r − 1 ) (3) \chi^2\to\chi^2(r-1)\tag3 χ2→χ2(r−1)(3)
所以可以得到拒绝域为 W = { χ 2 ≥ χ α 2 ( r − 1 ) } (4) W=\{\chi^2\ge\chi^2_\alpha(r-1)\}\tag4 W={χ2≥χα2(r−1)}(4)
二、关于分布的假设
2.1 完全已知的分布
对于一般的分布假设
H
0
:
F
(
x
)
≡
F
0
(
x
)
(5)
H_0:F(x)\equiv F_0(x)\tag5
H0:F(x)≡F0(x)(5)
其中,
F
0
(
x
)
F_0(x)
F0(x)为一个完全已知的分布函数(形式和参数均已知)
此时,可以把
(
−
∞
,
∞
)
(-\infty, \infty)
(−∞,∞)(或样本空间)分成
r
r
r个互不相交的区间:
(
−
∞
,
∞
)
=
⋃
i
=
1
r
I
i
=
(
−
∞
,
a
1
)
∪
[
a
1
,
a
2
)
∪
⋯
∪
[
a
r
−
1
,
∞
)
(6)
(-\infty, \infty)=\bigcup_{i=1}^rI_i=(-\infty,a_1)\cup[a_1,a_2)\cup\cdots\cup[a_{r-1},\infty)\tag6
(−∞,∞)=i=1⋃rIi=(−∞,a1)∪[a1,a2)∪⋯∪[ar−1,∞)(6)
且以
n
i
n_i
ni记落在第
i
i
i个区间
I
i
I_i
Ii内的样本个数,再记
p
1
=
F
(
a
1
)
,
p
2
=
F
(
a
2
)
−
F
(
a
1
)
,
⋯
,
p
r
=
1
−
F
(
a
r
−
1
)
(7)
p_1=F(a_1), p_2=F(a_2)-F(a_1),\cdots,p_r=1-F(a_{r-1})\tag7
p1=F(a1),p2=F(a2)−F(a1),⋯,pr=1−F(ar−1)(7)
p
10
=
F
0
(
a
1
)
,
p
20
=
F
0
(
a
2
)
−
F
0
(
a
1
)
,
⋯
,
p
r
0
=
1
−
F
0
(
a
r
−
1
)
(8)
p_{10}=F_0(a_1), p_{20}=F_0(a_2)-F_0(a_1),\cdots,p_{r0}=1-F_0(a_{r-1})\tag8
p10=F0(a1),p20=F0(a2)−F0(a1),⋯,pr0=1−F0(ar−1)(8)
则我们可以用统计量
χ
2
=
∑
i
=
1
r
(
n
i
−
n
p
i
0
)
2
n
p
i
0
(9)
\chi^2=\sum_{i=1}^r\frac{(n_i-np_{i0})^2}{np_{i0}}\tag9
χ2=i=1∑rnpi0(ni−npi0)2(9)
来检验。
- 我们检验的假设为 H 0 : p i = p i 0 H_0:p_i=p_{i0} H0:pi=pi0,所以如果分点选的不是很好,可能会把两个有一定差别的分布检验为没有区别
- 在一般情形下,分点的选取应保证落在每个区间内的样本点个数不小于 5 5 5,且总的样本容量不应小于 30 30 30
- 当 F 0 F_0 F0中含有未知参数时,上述拟合优度检验无法实施
2.2 带有未知参数的 χ 2 \chi^2 χ2拟合优度检验
在许多实际问题中,我们感兴趣的假设可能为
H
0
:
F
(
x
)
≡
F
0
(
x
;
θ
1
,
⋯
,
θ
k
)
(10)
H_0:F(x)\equiv F_0(x;\theta_1,\cdots,\theta_k)\tag{10}
H0:F(x)≡F0(x;θ1,⋯,θk)(10)
其中,
F
0
(
x
;
θ
1
,
⋯
,
θ
k
)
F_0(x;\theta_1,\cdots,\theta_k)
F0(x;θ1,⋯,θk)是依赖于
k
k
k个未知参数的形式已知的分布,如一般的正态分布,二项分布等。
Fisher指出,当
H
0
H_0
H0成立时,可先用MLE估计未知参数,可以得到
p
^
i
0
\hat p_{i0}
p^i0的值,之后可以利用统计量
χ
2
=
∑
i
=
1
r
(
n
i
−
n
p
^
i
0
)
2
n
p
^
i
0
(11)
\chi^2=\sum_{i=1}^r\frac{(n_i-n\hat p_{i0})^2}{n\hat p_{i0}}\tag{11}
χ2=i=1∑rnp^i0(ni−np^i0)2(11)
作为检验统计量,且当
H
0
H_0
H0成立时及
n
→
∞
n\to\infty
n→∞时,仍有
χ
2
→
χ
2
(
r
−
1
−
k
)
\chi^2\to\chi^2(r-1-k)
χ2→χ2(r−1−k)