直观理解Law of Total Variance(方差分解公式)

Jie Qiao

已于 2022-05-11 12:23:08 修改

阅读量4.2k

点赞数 8

分类专栏：人工智能

于 2022-04-30 23:25:05 首次发布

本文链接：https://blog.csdn.net/a358463121/article/details/124520816

版权

人工智能

人工智能专栏收录该内容

51 篇文章

订阅专栏

Law of Iterated Expectations (LIE)

在讲方差分解之前，我们需要先理解双期望定理。对于一个X，我们可以根据不同的Y将其任意的划分为几部分：
在这里插入图片描述
于是经过这样的划分，X总体的均值其实是等价于每一个划分下均值的总体均值。

$\operatorname{E} [X]=\operatorname{E} [\operatorname{E} [X|Y]]$

举个例子，假设一共划分为三部分，每部分的均值分别为70 60 80, 于是

$\begin{aligned} & E[X]=E[E[X\mid Y]]\\ = & E[E[X\mid Y=y_{1} ]+E[X\mid Y=y_{2} ]+E[X\mid Y=y_{3} ]]\\ = & \frac{70+60+80}{3}\\ = & 70 \end{aligned}$

从理论上，
$\begin{aligned} E[E[X\mid Y]] & =\int p( y)\int xp( x|y) dxdy\\ & =\int p( x,y) xdxdy\\ & =\int p( x) xdx\\ & =E[ X] \end{aligned}$

Mathematical Derivation of the Law of Total Variance

另一个重要的规则是total variance：
$Var(X)=\operatorname{E} [Var(X\mid Y)\ ]+Var(\operatorname{E} [X\mid Y])$

它刻画了方差的两个组成成分：
$\begin{aligned} \operatorname{E} [Var(X\mid Y)\ ] & =\operatorname{E} [\ \operatorname{E} [X^{2} \mid Y\ ]-(\operatorname{E} [X\mid Y])^{2} \ ] & \text{Def. of variance}\\ & =\operatorname{E} [\ \operatorname{E} [X^{2} \mid Y]\ ]-\operatorname{E} [\ (\operatorname{E} [X\mid Y])^{2} \ ] & \text{Lin. of Expectation}\\ & =\operatorname{E} [X^{2} ]-\operatorname{E} [\ (\operatorname{E} [X\mid Y])^{2} \ ] & \text{law of Ite. Expect} \end{aligned}\\ \\ \begin{aligned} Var(E[X\mid Y]) & =E[( E[X\mid Y])^{2} ]-E[E[X\mid Y]]^{2} & \text{Def. of variance}\\ & =E[( E[X\mid Y])^{2} ]-E[X]^{2} & \text{law of Ite. Expect} \end{aligned}\\ \\ \therefore \ \operatorname{E} [Var(X\mid Y)\ ]+Var(\operatorname{E} [X\mid Y])=\operatorname{E} [X^{2} ]-E[X]^{2} =Var( X)$

怎么理解呢？

什么是 $\displaystyle \operatorname{E} [Var(X\mid Y)\ ]$ ? 直观来看，他是每个划分下方差的均值，因此，它刻画了样本内差异的均值。
什么是 $\displaystyle Var(E[X\mid Y])$ ? 它刻画了不同分组下均值的差异程度，因此，它刻画了样本间差异的程度。

因此，方差刻画了样本内和样本间差异的叠加，这就是Law of Total Variance.

与k-means聚类的联系

熟悉聚类算法的同学可能意识到，k means聚类其实有两种等价的学习方式，分别是，最小化类内距离(within-cluster sum of squares (WCSS))：
$\underset{\mathbf{S}}{\operatorname{arg\ min}}\sum ^{k}_{i=1}\sum _{\mathbf{x} \in S_{i}}\Vert \mathbf{x} -\boldsymbol{\mu }_{i}\Vert ^{2} =\underset{\mathbf{S}}{\operatorname{arg\ min}}\sum ^{k}_{i=1} |S_{i} |\operatorname{Var} S_{i}$
以及最大化类间距离(between-cluster sum of squares, BCSS)：
$\underset{\mathbf{S}}{\operatorname{arg\ max}}\sum ^{k}_{i=1} |S_{i} |\Vert \overline{\mathbf{{\displaystyle x}}} -\boldsymbol{\mu }_{i}\Vert ^{2}$
显然，它们分别对应着 $\displaystyle \operatorname{E} [Var(X\mid Y)\ ]$ 和 $\displaystyle Var(E[X\mid Y])$ ，因为他们加起来是等于常数（方差），因此根据全方差公式，最小化前者等价于最大化后者。

与最小二乘法的联系

所谓最小二乘法，其实就是搜索最优的 $\displaystyle f$ ：
$\begin{aligned} \operatorname{E} [(Y-f(X))^{2} ] & =\operatorname{E} [(Y-\operatorname{E} (Y|X)\ \ +\ \ \operatorname{E} (Y|X)-f(X))^{2} ]\\ & =\operatorname{E} [\operatorname{E} \{(Y-\operatorname{E} (Y|X)\ \ +\ \ \left(\operatorname{E} (Y|X)-f(X)\right)^{2} |X\}]\\ & =\operatorname{E}\left[\left( (Y-\operatorname{E} (Y|X)\ \right)^{2} +\left(\operatorname{E} (Y|X)-f(X)\right)^{2} +2\left( Y-\operatorname{E} (Y|X)\right)\left(\operatorname{E} (Y|X)-f(X)\right) |X\right]\\ & =\operatorname{E} [\operatorname{Var} (Y|X)]+\operatorname{E}\left[\left(\operatorname{E} (Y|X)-f(X)\right)^{2}\right] +2\left( E[ Y|X] -\operatorname{E} (Y|X)\right)\left(\operatorname{E} (Y|X)-f(X)\right)\\ & =\operatorname{E} [\operatorname{Var} (Y|X)]+\operatorname{E} [(\operatorname{E} (Y|X)-f(X))^{2} ]\ . \end{aligned}$
其中
$\begin{aligned} {\displaystyle \operatorname{Var} (Y|X)} & {\displaystyle =\operatorname{E}\Bigl(\bigl( Y-\operatorname{E} (Y\mid X)\bigr)^{2} \mid X\Bigr)}\\ & {\displaystyle =\operatorname{E}\Bigl( Y^{2} -2Y\operatorname{E} (Y\mid X)+\operatorname{E} (Y\mid X)^{2} \mid X\Bigr)}\\ & {\displaystyle =\operatorname{E}\Bigl( Y^{2} |X-2E[ Y|X]\operatorname{E} (Y\mid X)+\operatorname{E} (Y\mid X)^{2}\Bigr)}\\ & ={\displaystyle \operatorname{E} [Y^{2} \mid X\ ]-(\operatorname{E} [Y\mid X])^{2}} \end{aligned}$

可以发现，当 $\displaystyle f=\operatorname{E} (Y|X)$ 的时候，右边的那项将消失，因此条件期望就是最优的 $\displaystyle f$ ，
$E\left(( Y-E[ Y|X])^{2}\right) =E[ Var[ Y|X]]$
因为回归其实也可以直观上理解为一种最小化样本内差异的方法。