一、 卡方 拟合优度 检验 (Chi Square Test for Goodness of Fit)
例1:什锦糖,把各种糖掺和在一起买,如:以如下比例勾兑了一种什锦糖:
类别 | 高粱饴 | 大白兔 | 大虾酥 | 酒心糖 | 巧克力 |
---|---|---|---|---|---|
总体比例 H0 | 40 % | 20 % | 20 % | 15 % | 5 % |
从 H0 为真的1000块糖的总体中,抽样100块糖
类别 | 高粱饴 | 大白兔 | 大虾酥 | 酒心糖 | 巧克力 |
---|---|---|---|---|---|
期望频次 Expectation | 40 | 20 | 20 | 15 | 5 |
观测频次 Observation | 38 | 24 | 18 | 18 | 2 |
卡方值:把一次抽样中的观测频次和期望频次之间的差异算成一个数值。 公式如下:
χ 2 = ∑ i n ( O i − E i ) 2 E i \chi^2 = \sum_{i}^{n} \frac{(O_i - E_{i})^2}{E_i} χ2=i∑nEi(Oi−Ei)2
其中 E 为期望频次 Expectation, O 为观测频次 Observation, n 为类别变量的种类,在本例中n为5
χ
2
=
(
38
−
40
)
2
40
+
(
24
−
20
)
2
20
+
(
18
−
20
)
2
20
+
(
18
−
15
)
2
15
+
(
2
−
5
)
2
5
=
0.1
+
0.8
+
0.2
+
0.6
+
1.8
=
3.5
\begin{array}{l} {\chi ^2} = \frac{{{{(38 - 40)}^2}}}{{40}} + \frac{{{{(24 - 20)}^2}}}{{20}} + \frac{{{{(18 - 20)}^2}}}{{20}} + \frac{{{{(18 - 15)}^2}}}{{15}} + \frac{{{{(2 - 5)}^2}}}{5}\\ = 0.1 + 0.8 + 0.2 + 0.6 + 1.8\\ = 3.5 \end{array}
χ2=40(38−40)2+20(24−20)2+20(18−20)2+15(18−15)2+5(2−5)2=0.1+0.8+0.2+0.6+1.8=3.5
加入进行10k次重复抽象,可以得到10k个卡方值,做成直方图,即可得到卡方分布,在图中,横轴代表卡方值,纵轴代表次数。
在卡方等于3.5处画直线,比3.5(含)还极端的样本数量占总共10000次抽样的比,就是p值,本例中的p为0.4213。假设 α \alpha α为0.05,即 p > α {\rm{p}} > \alpha p>α, 表示这个样本不极端,不显著,符合H0
可通过根据卡方值查表计算p值:
Chi-square-table.pdf (scribbr.com)
- 表中第一行表示显著性水平。第一列表示自由度。什锦糖例子中自由度为4,
- 3.5在1.064到7.779之间,则p值可推测在0.9到0.1之间
例2:共有四款游戏,人们是否同等喜欢4款游戏。
H0:同等喜欢4款游戏。
DNF | LOL | CF | PUBG | |
---|---|---|---|---|
总体分布 H0 | 0.25 | 0.25 | 0.25 | 0.25 |
调查问卷:你最喜欢的游戏是哪一个
DNF | LOL | CF | PUBG | |
---|---|---|---|---|
期望频次 Expectation | 35 | 35 | 35 | 35 |
观测频次 Observation | 31 | 37 | 30 | 42 |
χ 2 = ( 31 − 35 ) 2 35 + ( 37 − 35 ) 2 35 + ( 30 − 35 ) 2 35 + ( 42 − 35 ) 2 35 = 2.6857 \begin{array}{l} {\chi ^2} = \frac{{{{(31 - 35)}^2}}}{{35}} + \frac{{{{(37 - 35)}^2}}}{{35}} + \frac{{{{(30 - 35)}^2}}}{{35}} + \frac{{{{(42 - 35)}^2}}}{35}\\ = 2.6857 \end{array} χ2=35(31−35)2+35(37−35)2+35(30−35)2+35(42−35)2=2.6857
自由度为3, 2.68在1.064到7.779之间,则p在0.9到0.1之间。假设 α \alpha α为0.05,即 p > α {\rm{p}} > \alpha p>α, 表示这个样本不极端,不显著,符合H0
二、 马氏距离和卡方分布的关系
假设我们有一个 p p p的样本,其均值向量为 μ \mu μ,协方差矩阵为 Σ \Sigma Σ。对于一个样本向量 x,其马氏距离的平方计算为:
D
2
=
(
x
−
μ
)
T
∑
−
1
(
x
−
μ
)
{D^2} = {(x - \mu )^T}{\sum ^{ - 1}}(x - \mu )
D2=(x−μ)T∑−1(x−μ)
在正态分布的情况下,这个马氏距离的平方近似地服从自由度为
p
p
p卡方分布:
D
2
≈
χ
p
2
{D^2} \approx \chi _p^2
D2≈χp2