机器学习笔记之高斯分布(三)——从几何角度观察多维高斯分布

静静的喝酒

已于 2023-07-21 10:23:50 修改

阅读量1.7k

点赞数 2

分类专栏：机器学习文章标签：马氏距离多维高斯分布坐标系映射协方差矩阵正定性

于 2022-08-15 20:15:36 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/126347941

版权

机器学习专栏收录该内容

195 篇文章 230 订阅

订阅专栏

机器学习笔记之高斯分布——从几何角度观察多维高斯分布

引言

引言

回顾：一维高斯分布

在使用极大似然估计计算高斯分布最优参数一节中介绍了一维高斯分布。具体表示如下：
$\sim \mathcal N(\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp \left\{-\frac{(x - \mu)^2}{2\sigma^2} \right\}$

其中 $x,\mu,\sigma$ 均属于一维矩阵，即标量。

多维高斯分布

多维高斯分布与一维高斯分布的明显区别是：随机变量 $x$ ，期望 $\mu$ 以多维向量的形式出现，方差以多维矩阵的形式出现(方阵)。
随机变量定义：
数据集合 $\mathcal X$ 包含 $N$ 个样本：
$\mathcal X = \left\{x^{(1)},x^{(2)},\cdots,x^{(N)} \right\}$
其中， $\mathcal X$ 中 任意样本 $x^{(i)}(i \in \{1,2,\cdots,N\})$ 均属于 $p$ 维随机变量，记作 $x^{(i)} \in \mathbb R^{p}$ ；
以样本 $x^{(i)}$ 为例，其向量表示如下：
$x^{(i)} = \left(x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)} \right)_{p \times 1}^{T}$
期望 $\mu$ 同样属于 $p$ 维随机变量。每一维度值表示数据集合中所有样本对应该维度值的期望结果。 $\mu$ 的向量表示如下：
$\mu = (\mu_1,\mu_2,\cdots,\mu_p)$

$\Sigma$ 表示协方差矩阵。它的定义表示如下：
$x$ 表示‘宏观意义’上的样本;任意样本。
$\Sigma = \mathbb E[(x - \mu)(x - \mu)^{T}]$
由于多维高斯分布中 $x,\mu$ 均为 $p$ 维向量。因此，将 $(x_1,x_2,\cdots,x_p),\mu = (\mu_1,\mu_2,\cdots,\mu_p)$ 带入上式：
$\Sigma = \mathbb E \begin{bmatrix} (x_1 - \mu_1)^2,(x_1 - \mu_1)(x_2 - \mu_2),\cdots,(x_1 - \mu_1)(x_p - \mu_p) \\ (x_2 - \mu_2)(x_1 - \mu_1),(x_2 - \mu_2)^2,\cdots,(x_2 - \mu_2)(x_p - \mu_p) \\ \vdots \\ (x_p - \mu_p)(x_1 - \mu_1),(x_p - \mu_p)(x_2 - \mu_2),\cdots,(x_p - \mu_p)^2 \end{bmatrix}= \begin{pmatrix} \sigma_{11},\sigma_{12},\cdots,\sigma_{1p} \\ \sigma_{21},\sigma_{22},\cdots,\sigma_{2p} \\ \vdots \\ \sigma_{p1},\sigma_{p2},\cdots,\sigma_{pp} \end{pmatrix}_{p \times p}$
观察上述矩阵，发现 $\sigma_{ij} = \sigma_{ji} = \mathbb E[(x_i - \mu_i)(x_j - \mu_j)]$ 。因此，协方差矩阵 $\Sigma$ 是 实对称矩阵。并且 $\sigma_{ii} = (x_i - \mu_i)^2 \geq0(i = 1,2,\cdots,p)$ 恒成立。因此 $\Sigma$ 至少是半正定矩阵。
不排除 $\sigma_{ii}=0$ 的情况发生，因此这个协方差矩阵不一定是‘正定矩阵’。但在推导过程中暂时设定为‘正定矩阵’。

多维高斯分布的概率密度函数表示如下：
从‘概率模型’角度将高斯分布表示为 $\mid \mu,\Sigma)$
$\sim \mathcal N(\mu,\Sigma) = P(x \mid \mu,\Sigma) = \frac{1}{(2\pi)^{\frac{p}{2}}\cdot|\Sigma|^{\frac{1}{2}}} \exp \left\{-\frac{1}{2}(x - \mu)^{T} \Sigma^{-1} (x -\mu) \right\}$
其中， $|\Sigma|$ 表示协方差矩阵的行列式结果； $\Sigma^{-1}$ 表示协方差矩阵的逆矩阵。

观察：如果将 $x$ 看作自变量/需要求解的量， $\mu,\Sigma$ 看作多维高斯分布 $\mathcal N(\mu,\Sigma)$ 的参数，则整个概率密度函数公式中和 $x$ 有关的部分只有：
$\mu)^{T} \Sigma^{-1}(x - \mu)$
首先观察它的维度： $\mu)$ 是 $p\times 1$ 维向量， $\mu)^{T}$ 自然是 $1\times p$ 维向量；协方差矩阵的逆不改变维度： $\Sigma^{-1} \to p \times p$ ；因此， $\mu)^{T} \Sigma^{-1}(x - \mu)$ 本质上是一个一维矩阵，是个标量，是一个具体数值。

这里引进一个概念：马氏距离( $\text{Mahalanobis distance}$ )。它描述的是两个向量(高维空间内两个数据点)之间的距离描述。马氏距离传送门
例如 $p$ 维空间的两个数据点：
$(x_1,x_2,\cdots,x_p)^{T} \\ y=(y_1,y_2,\cdots,y_p)^{T}$
它们的马氏距离表示如下：
${\mathcal D}_{M}(x,y) = \sqrt{(x - y)^{T}\Sigma^{-1}(x - y)}$

在这里可以将 $\mu)^{T} \Sigma^{-1}(x - \mu)$ 视作样本点 $x$ 与样本均值向量 $\mu$ 之间的马氏距离。

如果 $\Sigma^{-1}$ 是单位矩阵，马氏距离将退化为欧式距离( $\text{Euclidean Distance}$ )

假设协方差矩阵是正定矩阵，对协方差矩阵进行特征值分解：
如果协方差矩阵是一般情况下的‘半正定’，那么 $\Sigma$ 自然是不能求逆的， $\Sigma^{-1}$ 是不存在的。
$\Sigma = U \Lambda U^{T}$
根据特征值分解定义， $U$ 是一个正交矩阵，即：
$UU^{T} = U^{T}U = I$
其中 $\mathcal I$ 表示单位矩阵， $U, I$ 矩阵格式均为 $p\times p$ 。将正交矩阵 $U$ 定义为 $(u_1,u_2,\cdots,u_p)$ ；其中 $u_i(i=1,2,\cdots,p)$ 看作 $\times 1$ 维向量。
$\Lambda$ 表示特征值向量，对角线上元素为 $\Sigma$ 矩阵的特征值。
根据上式则有：
$\begin{aligned} \Sigma & = U \Lambda U^{T} \\ & = (u_1,u_2,\cdots,u_p)\begin{pmatrix}\lambda_0 ,0,\cdots,0 \\ 0,\lambda_1,\cdots,0 \\ \vdots \\ 0,0,\cdots ,\lambda_p\end{pmatrix}\begin{pmatrix}u_1^{T} \\u_2^{T}\\ \vdots \\ u_p^{T}\end{pmatrix}\\ & = (u_1\lambda_1,u_2\lambda_2,\cdots,u_p\lambda_p) \begin{pmatrix}u_1^{T} \\u_2^{T}\\ \vdots \\ u_p^{T}\end{pmatrix} \\ & = u_1 \lambda_1 u_1^{T} + u_2 \lambda_2 u_2^{T} + \cdots +u_p \lambda_p u_p^{T} \end{aligned}$
由于 $\lambda_1,\lambda_2,\cdots,\lambda_p$ 是特征值，是常数，因此可以提到前面， $u_iu_i^{T}$ 结果是 $\times p$ 的方阵；
$\Sigma = \sum_{i=1}^p\lambda_iu_iu_i^{T}$
基于上式，通过 $\Sigma$ 求解 $\Sigma^{-1}$ ：
正交阵的性质，正交阵的转置等于该正交阵的逆。即： $U^{T} = U^{-1}$
$\begin{aligned} \Sigma^{-1} & = (U \Lambda U^{T})^{-1} \\ & = (U^{T})^{-1} \Lambda^{-1}U^{-1} \\ & = U \Lambda^{-1}U^{T} \\ & = \sum_{i=1}^p \frac{1}{\lambda_i}u_iu_i^{T} \end{aligned}$
将 $\Sigma^{-1}$ 带入 $\mu)^{T} \Sigma^{-1}(x - \mu)$ ，则有：
$\begin{aligned} (x - \mu)^{T} \Sigma^{-1}(x - \mu) & = (x - \mu)^{T} \left[\sum_{i=1}^p \frac{1}{\lambda_i}u_iu_i^{T}\right](x - \mu) \end{aligned}$

观察， $-\mu)^{T}$ 是 $\times p$ 的向量； $\begin{aligned}\sum_{i=1}^p \frac{1}{\lambda_i}u_iu_i^{T} \end{aligned}$ 是 $\times p$ 维向量； $\mu)$ 是 $\times 1$ 维向量。
因此， $\begin{aligned}(x - \mu)^{T} \left[\sum_{i=1}^p \frac{1}{\lambda_i}u_iu_i^{T}\right](x - \mu) \end{aligned}$ 仍然是一个标量、一个数值。
将 $-\mu)^T,(x - \mu)$ 两个向量看成整体，不执行任何拆分，将 $\begin{aligned}\sum_{i=1}^p \frac{1}{\lambda_i}\end{aligned}$ 提出来：
$\sum_{i=1}^p \frac{1}{\lambda_i}(x - \mu)^{T} \left[u_iu_i^{T}\right] (x - \mu)$
令向量 $\begin{pmatrix}k_1 \\k_2\\\vdots \\k_p\end{pmatrix}_{p \times 1}$ ， $k_i(i=1,2,\cdots,p) = (x - \mu)^{T}u_i$

上式可转化为：
$\begin{aligned} \mathcal I & = \sum_{i=1}^p \frac{1}{\lambda_i} (x - \mu)^Tu_i \cdot \left[(x - \mu)^Tu_i\right]^T \\ & = \sum_{i=1}^p \frac{1}{\lambda_i}k_ik_i^{T} \end{aligned}$

由于 $k$ 的定义，因此， $k_i(i=1,2,\cdots,p)$ 是标量、数值。即：
$k_i^{T} = k_i$
则有：
$\begin{aligned} (x - \mu)^{T} \Sigma^{-1}(x - \mu) & = \sum_{i=1}^p \frac{1}{\lambda_i}k_ik_i^{T} \\ & = \sum_{i=1}^p \frac{k_i^2}{\lambda_i}(i=1,2,\cdots,p) \end{aligned}$

将上述结果展开：
$\sum_{i=1}^p \frac{k_i^2}{\lambda_i} = \frac{k_1^2}{\lambda_1} + \frac{k_2^2}{\lambda_2} +\cdots + \frac{k_p^2}{\lambda_p}$

如果给定上述结果一个具体的值： $\Delta$
则有：
$\begin{aligned} \frac{k_1^2}{\lambda_1} + \frac{k_2^2}{\lambda_2} +\cdots + \frac{k_p^2}{\lambda_p} = \Delta \\ \frac{1}{\Delta}(\frac{k_1^2}{\lambda_1} + \frac{k_2^2}{\lambda_2} +\cdots + \frac{k_p^2}{\lambda_p} ) = 1 \\ \frac{k_1^2}{\Delta\lambda_1} + \frac{k_2^2}{\Delta\lambda_2} +\cdots + \frac{k_p^2}{\Delta\lambda_p} = 1 \end{aligned}$
它就是一个超椭圆形的标准方程。
令 $p = 2$ ：
$\frac{k_1^2}{\Delta\lambda_1} + \frac{k_2^2}{\Delta\lambda_2} = 1$

它就是一个椭圆的标准方程，其中 $\sqrt{\Delta\lambda_1},b = \sqrt{\Delta\lambda_2}$

至此，基于马氏距离 $\mu)^{T} \Sigma^{-1}(x - \mu)$ ，它执行一次坐标系的映射：

原始 $p$ 维坐标系 $x_i(i=1,2,\cdots,p)$ ;
经过一系列变换： $k_i = (x - \mu)^{T} u_i$
将 $x$ 坐标系先通过平移 $\mu$ 个长度后，再映射到 $u$ 坐标系中(矩阵乘法的特点)
$k_i$ 表示在样本 $x$ 在 $u$ 坐标系中的映射结果。
而马氏距离 $\mu)^{T} \Sigma^{-1}(x - \mu)$ 可理解为在 $x$ 映射到 $k$ 之后，构建一个椭圆，而椭圆上的值就是马氏距离的结果。

上述表示 $i = 2$ 时的高斯分布图像，由于 $x$ 只和 $\mu)^{T} \Sigma^{-1}(x - \mu)$ 相关，和表示概率的 $\begin{aligned}\frac{1}{(2\pi)^{\frac{p}{2}}\cdot|\Sigma|^{\frac{1}{2}}}\end{aligned}$ 无关。

但是概率和 $\Delta$ 相关，基于上述标准方程，椭圆的长轴和短轴长度分别是 $\sqrt{\Delta\lambda_1},\sqrt{\Delta\lambda_2}$ ；选择的 $\Delta$ 值直接影响椭圆的大小，从而影响获取横截面的位置。

因此，当概率被确定时，以上述图为例，在 $z$ 轴对应概率值位置进行横切，而横切得到的横截面必然是椭圆形截面。而 $\mu)^{T} \Sigma^{-1}(x - \mu)$ 表示椭圆形上的点。

高斯分布的局限性(2022/11/18)

回顾：协方差矩阵，马氏距离

回顾正常情况下(正定条件下) 协方差矩阵的表示：
$\Sigma = \mathcal U \Lambda \mathcal U^T \quad \mathcal U^T\mathcal U = \mathcal U\mathcal U^T = \mathcal I$
其中 $\mathcal I$ 是单位矩阵，由于协方差矩阵自身的性质， $\mathcal U$ 是各向量两两正交的正交矩阵：
$\mathcal U = (u_1,u_2,\cdots,u_p)_{p \times p}$
某样本点 $x$ 到对应分布的马氏距离 $\Delta$ 表示如下：
需要补充的点： $k_i$ 并不是正交基，而是 $x$ 坐标轴的元素 $\mu$ 在 $u$ 正交基上的投影坐标，是一个实数。
$k_i = (x - \mu)^T \cdot u_i$
$\begin{aligned} \Delta & = (x - \mu)^{T} \Sigma^{-1}(x - \mu) \\ & = (x - \mu)^{T} \sum_{i=1}^p \frac{1}{\lambda_i}u_iu_i^{T}(x - \mu) \\ & = \sum_{i=1}^p \frac{1}{\lambda_i} \left[(x - \mu)^T \cdot u_i\right] \cdot \left[(x - \mu)^T \cdot u_i\right]^T\\ & = \sum_{i=1}^p \frac{1}{\lambda_i}k_ik_i^{T} \\ & = \sum_{i=1}^p \frac{k_i^2}{\lambda_i}(i=1,2,\cdots,p) \end{aligned}$
因此，马氏距离在正交基 $\mathcal U = (u_1,u_2,\cdots,u_p)$ 中的呈现的函数是一个标准椭圆形状。但是该椭圆仅在 $\mathcal U$ 正交基下是标准的，但在 $x$ 坐标轴中可能存在偏移：
这里图形均以二维坐标为例，下同。
请添加图片描述

局限性的具体体现

计算协方差矩阵参数的时间复杂度过高。
协方差矩阵是一个 $\times p$ 的实对称矩阵，因此需要求解的元素包含上/下三角阵 + 对角阵的参数。具体参数数量 $\delta$ 以及对应的时间复杂度为：
$\delta = \frac{p(p+1)}{2} \to O(p^2)$
为了减小时间复杂度，尝试对求解过程进行简化。
- 假设协方差矩阵是对角矩阵。即：
  $\Sigma = \mathcal U \Lambda \mathcal U^T \to \Lambda$
  这意味着 $\mathcal U$ 不仅仅是单纯的正交矩阵，并且是单位矩阵，矩阵内各向量均是两两相互正交的单位向量：
  $\mathcal U = \mathcal U^T = \mathcal E$
  这使得正交基 $u_i$ 和坐标轴 $x_i$ 方向相同，此时仅需要计算 对角线上的 $p$ 个特征值即可。
  $\Delta = \sum_{i=1}^p \frac{1}{\lambda_i} u_iu_i^T$
  协方差矩阵是对角阵对应在图中的表示如下：
- 在上述假设的基础上，假设表示协方差矩阵 $\Sigma$ 的对角阵中各元素均相同。即：
  $\lambda_1, = \lambda_2 = \cdots = \lambda_p = \lambda$
  此时的马氏距离变化为：
  由于 $\lambda$ 均相同，使得原始的超椭圆体的判别式变成一个超球体的判别式。
  $\Delta = \frac{\sum_{i=1}^p u_i u_i^T}{\lambda}$
  协方差矩阵是对角线元素相同的对角阵对应图像表示如下：
  
  此时的协方差矩阵仅需要计算一个特征值即可，大大简化了运算。将这种情况称为各向同性(isotropic)。具体的延伸方法有因子分析(Factor Analysis),概率性主成分分析(Probabilisitc PCA)等。
高斯分布自身的局限性——虽然高斯分布涉及范围很广泛，但是一些情况使用高斯分布建立概率模型 显得不足。最明显的如高斯混合模型的概率分布，其分布明显一个高斯分布无法进行表示。详见高斯混合模型——模型介绍。