关于类间方差和类内方差,总方差关系的证明
对于给定的数据样本,将其分为两类:
A
A
A和
B
B
B。若记总方差为
σ
t
o
t
a
l
2
\sigma_{total}^2
σtotal2,类内方差和为
σ
i
n
t
r
a
2
\sigma_{intra}^2
σintra2和类间方差和为
σ
i
n
t
e
r
2
\sigma_{inter}^2
σinter2,那么下式成立:
σ
t
o
t
a
l
2
=
σ
i
n
t
e
r
2
+
σ
i
n
t
r
a
2
(1)
\sigma_{total}^2 = \sigma_{inter}^2 + \sigma_{intra}^2 \tag{1}
σtotal2=σinter2+σintra2(1)
在证明之前,需要注意该等式适用的是偏差平方和,而不是偏差平方和的平均值。
记
y
i
j
y_{ij}
yij是第
i
i
i类的第
j
j
j个样本,那么所以样本的均值为:
y
‾
∙
∙
=
∑
i
∑
j
y
i
j
∑
i
∑
j
1
(2)
\overline{y}_{\bullet \bullet} = \frac{\sum_i \sum_j y_{ij}}{\sum_i \sum_j 1} \tag{2}
y∙∙=∑i∑j1∑i∑jyij(2)
第
i
i
i类的样本平均值为:
y
‾
i
∙
=
∑
j
∑
j
y
i
j
∑
i
∑
j
1
(3)
\overline{y}_{i \bullet} = \frac{\sum_j \sum_j y_{ij}}{\sum_i \sum_j 1} \tag{3}
yi∙=∑i∑j1∑j∑jyij(3)
其中,
j
j
j的值依赖于类别
i
i
i,即并非所有类中的样本数目相同。
那么总方差
σ
t
o
t
a
l
2
\sigma_{total}^2
σtotal2为:
σ
t
o
t
a
l
2
=
∑
i
∑
j
(
y
i
j
−
y
∙
∙
)
2
(4)
\sigma_{total}^2 = \sum_i\sum_j(y_{ij} - y_{\bullet \bullet})^2 \tag{4}
σtotal2=i∑j∑(yij−y∙∙)2(4)
类内方差和
σ
i
n
t
r
a
2
\sigma_{intra}^2
σintra2为:
σ
i
n
t
r
a
2
=
∑
i
∑
j
(
y
i
j
−
y
‾
i
∙
)
2
(5)
\sigma_{intra}^2 = \sum_i\sum_j(y_{ij} - \overline{y}_{i\bullet})^2 \tag{5}
σintra2=i∑j∑(yij−yi∙)2(5)
类间方差和
σ
i
n
t
e
r
2
\sigma_{inter}^2
σinter2为:
σ
i
n
t
e
r
2
=
∑
i
∑
j
(
y
‾
i
∙
−
y
‾
∙
∙
)
2
(6)
\sigma_{inter}^2 = \sum_i\sum_j(\overline{y}_{i\bullet} - \overline{y}_{\bullet \bullet})^2 \tag{6}
σinter2=i∑j∑(yi∙−y∙∙)2(6)
其中,
n
i
n_i
ni为第
i
i
i类的样本数目。
由于:
(
y
i
j
−
y
∙
∙
)
2
=
[
(
y
i
j
−
y
‾
i
∙
)
+
(
y
‾
i
∙
−
y
∙
∙
)
]
2
=
(
y
i
j
−
y
‾
i
∙
)
2
+
2
(
y
i
j
−
y
‾
i
∙
)
(
y
‾
i
∙
−
y
∙
∙
)
+
(
y
‾
i
∙
−
y
∙
∙
)
2
(7)
\begin{aligned} (y_{ij} - y_{\bullet \bullet})^2 &= [(y_{ij}-\overline{y}_{i\bullet}) + (\overline{y}_{i\bullet} -y_{\bullet \bullet})]^2 \\ & = (y_{ij}-\overline{y}_{i\bullet})^2 + 2(y_{ij}-\overline{y}_{i\bullet})(\overline{y}_{i\bullet} -y_{\bullet \bullet}) + (\overline{y}_{i\bullet} -y_{\bullet \bullet})^2 \end{aligned} \tag{7}
(yij−y∙∙)2=[(yij−yi∙)+(yi∙−y∙∙)]2=(yij−yi∙)2+2(yij−yi∙)(yi∙−y∙∙)+(yi∙−y∙∙)2(7)
故只需证明中间项求和为
0
0
0.
注意到
(
y
‾
i
∙
−
y
∙
∙
)
(\overline{y}_{i\bullet} -y_{\bullet \bullet})
(yi∙−y∙∙)只与
i
i
i有关,故可以将求和符号进行交换,且
y
i
∙
=
n
i
y
‾
i
∙
y_{i\bullet} = n_i \overline{y}_{i\bullet}
yi∙=niyi∙,则:
2
∑
i
∑
j
(
y
i
j
−
y
‾
i
∙
)
(
y
‾
i
∙
−
y
∙
∙
)
=
2
∑
i
(
y
‾
i
∙
−
y
∙
∙
)
∑
j
(
y
i
j
−
y
‾
i
∙
)
=
2
∑
i
(
y
‾
i
∙
−
y
∙
∙
)
(
y
i
∙
−
n
i
y
‾
i
∙
)
=
0
(8)
\begin{aligned} 2\sum_i\sum_j(y_{ij}-\overline{y}_{i\bullet})(\overline{y}_{i\bullet} -y_{\bullet \bullet}) &= 2\sum_i (\overline{y}_{i\bullet} -y_{\bullet \bullet})\sum_j(y_{ij} - \overline{y}_{i\bullet}) \\ & = 2\sum_i (\overline{y}_{i\bullet} -y_{\bullet \bullet})(y_{i\bullet} - n_i \overline{y}_{i\bullet}) \\ & = 0 \end{aligned} \tag{8}
2i∑j∑(yij−yi∙)(yi∙−y∙∙)=2i∑(yi∙−y∙∙)j∑(yij−yi∙)=2i∑(yi∙−y∙∙)(yi∙−niyi∙)=0(8)
交叉项求和为
0
0
0,还反映了两个向量正交。