关于类间方差和类内方差,总方差关系的证明

本文详细介绍了如何证明类间方差(σ_inter2)和类内方差(σ_intra2)之和等于总方差(σ_total2)。通过数学推导展示了方差分解的过程,利用向量正交性证明了中间项求和为零,从而得出结论。内容适合统计学和机器学习领域的读者理解数据分类中的方差概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于类间方差和类内方差,总方差关系的证明

对于给定的数据样本,将其分为两类: A A A B B B。若记总方差为 σ t o t a l 2 \sigma_{total}^2 σtotal2,类内方差和为 σ i n t r a 2 \sigma_{intra}^2 σintra2和类间方差和为 σ i n t e r 2 \sigma_{inter}^2 σinter2,那么下式成立:
σ t o t a l 2 = σ i n t e r 2 + σ i n t r a 2 (1) \sigma_{total}^2 = \sigma_{inter}^2 + \sigma_{intra}^2 \tag{1} σtotal2=σinter2+σintra2(1)
在证明之前,需要注意该等式适用的是偏差平方和,而不是偏差平方和的平均值。
y i j y_{ij} yij是第 i i i类的第 j j j个样本,那么所以样本的均值为:
y ‾ ∙ ∙ = ∑ i ∑ j y i j ∑ i ∑ j 1 (2) \overline{y}_{\bullet \bullet} = \frac{\sum_i \sum_j y_{ij}}{\sum_i \sum_j 1} \tag{2} y=ij1ijyij(2)
i i i类的样本平均值为:
y ‾ i ∙ = ∑ j ∑ j y i j ∑ i ∑ j 1 (3) \overline{y}_{i \bullet} = \frac{\sum_j \sum_j y_{ij}}{\sum_i \sum_j 1} \tag{3} yi=ij1jjyij(3)
其中, j j j的值依赖于类别 i i i,即并非所有类中的样本数目相同。
那么总方差 σ t o t a l 2 \sigma_{total}^2 σtotal2为:
σ t o t a l 2 = ∑ i ∑ j ( y i j − y ∙ ∙ ) 2 (4) \sigma_{total}^2 = \sum_i\sum_j(y_{ij} - y_{\bullet \bullet})^2 \tag{4} σtotal2=ij(yijy)2(4)
类内方差和 σ i n t r a 2 \sigma_{intra}^2 σintra2为:
σ i n t r a 2 = ∑ i ∑ j ( y i j − y ‾ i ∙ ) 2 (5) \sigma_{intra}^2 = \sum_i\sum_j(y_{ij} - \overline{y}_{i\bullet})^2 \tag{5} σintra2=ij(yijyi)2(5)
类间方差和 σ i n t e r 2 \sigma_{inter}^2 σinter2为:
σ i n t e r 2 = ∑ i ∑ j ( y ‾ i ∙ − y ‾ ∙ ∙ ) 2 (6) \sigma_{inter}^2 = \sum_i\sum_j(\overline{y}_{i\bullet} - \overline{y}_{\bullet \bullet})^2 \tag{6} σinter2=ij(yiy)2(6)
其中, n i n_i ni为第 i i i类的样本数目。
由于:
( y i j − y ∙ ∙ ) 2 = [ ( y i j − y ‾ i ∙ ) + ( y ‾ i ∙ − y ∙ ∙ ) ] 2 = ( y i j − y ‾ i ∙ ) 2 + 2 ( y i j − y ‾ i ∙ ) ( y ‾ i ∙ − y ∙ ∙ ) + ( y ‾ i ∙ − y ∙ ∙ ) 2 (7) \begin{aligned} (y_{ij} - y_{\bullet \bullet})^2 &= [(y_{ij}-\overline{y}_{i\bullet}) + (\overline{y}_{i\bullet} -y_{\bullet \bullet})]^2 \\ & = (y_{ij}-\overline{y}_{i\bullet})^2 + 2(y_{ij}-\overline{y}_{i\bullet})(\overline{y}_{i\bullet} -y_{\bullet \bullet}) + (\overline{y}_{i\bullet} -y_{\bullet \bullet})^2 \end{aligned} \tag{7} (yijy)2=[(yijyi)+(yiy)]2=(yijyi)2+2(yijyi)(yiy)+(yiy)2(7)
故只需证明中间项求和为 0 0 0.
注意到 ( y ‾ i ∙ − y ∙ ∙ ) (\overline{y}_{i\bullet} -y_{\bullet \bullet}) (yiy)只与 i i i有关,故可以将求和符号进行交换,且 y i ∙ = n i y ‾ i ∙ y_{i\bullet} = n_i \overline{y}_{i\bullet} yi=niyi,则:
2 ∑ i ∑ j ( y i j − y ‾ i ∙ ) ( y ‾ i ∙ − y ∙ ∙ ) = 2 ∑ i ( y ‾ i ∙ − y ∙ ∙ ) ∑ j ( y i j − y ‾ i ∙ ) = 2 ∑ i ( y ‾ i ∙ − y ∙ ∙ ) ( y i ∙ − n i y ‾ i ∙ ) = 0 (8) \begin{aligned} 2\sum_i\sum_j(y_{ij}-\overline{y}_{i\bullet})(\overline{y}_{i\bullet} -y_{\bullet \bullet}) &= 2\sum_i (\overline{y}_{i\bullet} -y_{\bullet \bullet})\sum_j(y_{ij} - \overline{y}_{i\bullet}) \\ & = 2\sum_i (\overline{y}_{i\bullet} -y_{\bullet \bullet})(y_{i\bullet} - n_i \overline{y}_{i\bullet}) \\ & = 0 \end{aligned} \tag{8} 2ij(yijyi)(yiy)=2i(yiy)j(yijyi)=2i(yiy)(yiniyi)=0(8)
交叉项求和为 0 0 0,还反映了两个向量正交。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿呆591

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值