B站白板推导系列笔记——高斯分布——等概率线椭圆

最新推荐文章于 2022-10-05 09:27:00 发布

原创最新推荐文章于 2022-10-05 09:27:00 发布

· 5.3k 阅读

33 ·

版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

B站白板推导系列笔记——高斯分布——等概率线椭圆

先上大佬视频地址: 视频传送门

曾经做过机器学习相关实验的同学，可能大家在实验中会发现，生成的二维高斯分布的样本大概是呈现圆形或者椭圆的形状，但我猜大部分人应该没有做过相关证明吧（比如说我orz）。
这篇文章总结了这位大佬的视频，在视频中他推导出了这个结论。

马氏距离

首先先引入马氏距离：马哈拉诺比斯距离是由印度统计学家马哈拉诺比斯 (英语)提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invariant），即独立于测量尺度。

对于一个均值为 $\mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p})^{T}$ ，协方差矩阵为 $\Sigma$ 的多变量向量 $x=(x_{1},x_{2},x_{3},\dots ,x_{p})^{T}$ ，其马氏距离为:
$D_{M}(x) = (x-\mu)^{T}\Sigma^{-1}(x-\mu)$
也可以定义为两个服从同一分布并且其协方差矩阵为 $\Sigma$ 的随机变量 $x$ 与 $y$ 的差异程度
$D_{M}(x) = (x-y)^{T}\Sigma^{-1}(x-y)$

关于马氏距离的背景及推导请参考连接：
知乎传送门

高斯分布的表现形式

高维高斯分布表达式如下：
$\begin{aligned} N(\bm{x},\bm{\mu},\bm{\Sigma}) &= \frac{1}{(2\pi)^{\frac{d}{2}}|\bm{\Sigma}|^{\frac{1}{2}}}exp(-\frac{1}{2}(\bm{x}-\bm{\mu})^T\bm{\Sigma^{-1}}(\bm{x}-\bm{\mu})) \end{aligned}$

我们可以看到，决定这个概率密度表达式由随机变量 $x$ 均值 $\mu$ 和协方差矩阵 $\Sigma$ 决定，其中只有 $x$ 是变量，另两个是定值。所以当给定期望和方差时，该密度分布实际上只与 $x$ 有关，也就是与 $-\frac{1}{2}(\bm{x}-\bm{\mu})^T\bm{\Sigma^{-1}}(\bm{x}-\bm{\mu})$ 有关，这个形式其实就是之前提到的马氏距离，为了推导方便，忽略前面的-1/2系数，另：
$\Delta = (x-\mu)^T \Sigma^{-1}(x-\mu)$

下一步我们对上面这个式子做一个变形，以便更好分析：

首先对中间的协方差矩阵进行变形：由于 $\Sigma$ 是正定（半正定）矩阵，故一定可以进行特征值分解：
$\Sigma = U\Lambda U^{T}, \quad U^TU = UU^T = I, \quad \Lambda = diag(\lambda_i),i=1,2,...,p \quad U = (u_1,u_2,...u_p)_{p×p}$
所以：
$\Sigma = U\Lambda U^{T} = (u_1,u_2,...,u_p)\begin{pmatrix} \lambda_1 & 0 &\cdots&0 \\ 0& \lambda_2 & & \vdots\\ \vdots &&\ddots&\vdots\\ 0 & \cdots&\cdots&\lambda_p\\ \end{pmatrix} \begin{pmatrix} u_1^T \\ u_2^T\\ \vdots \\ u_p^T\\ \end{pmatrix} = \sum_{i=1}^p u_i\lambda_i u_{i}^T,$
所以：
$\Sigma^{-1} = (U\Lambda U^{T})^{-1} = \sum_{i=1}^p u_i\frac{1}{\lambda_i} u_{i}^T \tag1$
将（1）式代入到我们刚才考察的马氏距离中：
$\begin{aligned} \Delta = (x-\mu)^T \Sigma^{-1}(x-\mu) &= (x-\mu)^T(\sum_{i=1}^p u_i\frac{1}{\lambda_i} u_{i}^T)(x-\mu) \\ &= \sum_{i=1}^p [(x-\mu)^Tu_i\frac{1}{\lambda_i} u_{i}^T(x-\mu)] \\ \end{aligned}$
设 $y_i = (x-\mu)^T u_i$ ，由维度知， $y_i$ 是一个数，所以 $y_i = y_i^T$ 。所以上式子可继续化为：
$\Delta = (x-\mu)^T \Sigma^{-1}(x-\mu) = \sum_{i=1}^p y_i\frac{1}{\lambda_i} y_i^T = \sum_{i=1}^p \frac{y_i^2}{\lambda_i} \tag2$
观察2式，考虑一个特殊情况，当p=2时：
$\Delta_2 = \sum_{i=1}^2 \frac{y_i^2}{\lambda_i} = \frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2} \tag3$
我们令3式等于一个常数c，也就是让这个 $\Delta$ ，即马氏距离等于一个常值：
$\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2} = c \Longrightarrow \frac{y_1^2}{c\lambda_1}+\frac{y_2^2}{c\lambda_2} = 1$
可以看到，当马氏距离一定的时候，动点在 $y_1,y_2)$ 平面下是一个标准的椭圆，并且是以原点为中心，长短半轴和两个维度各自的 $\lambda_i$ 有关。当马氏距离不定的时候，也就是我们让c开始变化的时候，我们发现，当c越大时，体现在图形上，这个椭圆越大；体现在马氏距离上，这个距离越大，反应到高斯分布的表达式上，这个概率值越小——这是符合我们对高斯分布的认知的，即离期望值越远，其概率密度越小

而我们对于 $y_i$ 的定义： $y_i = (x-\mu)^T u_i$ ，可以看到是该点原来的坐标先进行0均值化，然后再在变换（旋转）矩阵 $U$ 的变换下，在其 $u_i$ 向量（轴）上的投影值（以上内容可以参考PCA中的知识，实际上 $\lambda_i$ 是变换后新坐标系下每个维度的方差），故从随机变量x到后来的y，实际上只是进行了坐标的变换（仅限于平移和伸缩），故曲线的形状是没有本质上的变化的（仍然是圆或者椭圆，只不过此时不是以原点为中心,而是以原来坐标系下的均值为中心，长短半轴和协方差矩阵有关）
图片出自于b站up主的推导