马氏距离+协方差矩阵+KL散度的理解

最新推荐文章于 2023-11-09 00:52:15 发布

等我想想

最新推荐文章于 2023-11-09 00:52:15 发布

阅读量2.1k

点赞数 2

文章标签：机器学习马氏距离 KL散度协方差矩阵

本文链接：https://blog.csdn.net/weixin_38026379/article/details/96114545

版权

协方差矩阵：

假设 $\mathbf X_{n×m}$ 代表n个样本，m个维度。 $\mu_{\mathbf x_{(1×m)}}$ 是 $\mathbf X_{n×m}$ 每一维度的均值，那么协方差矩阵计算公式为：

马氏距离：

1、判断样本与总体之间的距离，考虑到各个特征之间的相关性，并于各个分量的尺度无关。如果样本就处于总体的均值处，则距离为0，该距离随着P偏移均值而逐步增大。
假设总体的均值和协方差矩阵为 $\mu_{\mathbf x} \in(1×m),\Sigma_{\mathbf x} \in(m×m)$ ，样本 $\in(1×m)$ ，则马氏距离：
$D_{maha}(\mathbf X, x)=(x- \mu_{\mathbf x}) \Sigma_{\mathbf x}^{-1}(x- \mu_{\mathbf x})^T$
2、也可以判断服从同一分布的两个样本之间的距离
假设分布的协方差矩阵为 $\Sigma$
$D_{maha}(y, x)=(x- y) \Sigma^{-1}(x- y)^T$

KL 散度

$D_{KL}(p||q)= \sum_{i=1}^np(x_i) log\frac{p(x_i)}{q(x_i)}$
其中p( $x_i$ )是真实的分布，q( $x_i$ )是我们预测的分布，我们希望q( $x_i$ )越接近p( $x_i$ )越好。KL散度就是衡量任意一个分布偏离真实分布的程度，如果两个分布完全匹配，那么KL散度为0，否则KL散度取值为0到无穷大之间。

从公式上理解KL散度

如果 $q(x_i)$ 大于 $p(x_i)$ ，那么 $log\frac{p(x_i)}{q(x_i)}$ 小于0，反之，对数项大于0。只有当 $q(x_i)==p(x_i)$ ,D等于0。而使用 $p(x_i)$ 对这个对数项加权求和之后，从某种意义上说，这就是求期望的过程。也就是希望在真实分布 $p$ 概率大的地方权重更大，即更重要。
但是KL散度是不对称的，即 $D_{kl} (p||q) \neq D_{kl}(q||p)$ 。我们在用 $q(x_i)$ 近似真实分布 $p(x_i)$ 的时，可以选择最小化 $D_{kl}(p||q)$ 或着最小化 $D_{kl}(q||p)$ 。两种选择取决于具体问题。¹

如何选择：

$D_{kl}(p||q)$ ：模型更倾向选择一个分布 $q$ ，使得它在 $p$ 具有高概率的地方具有高概率。例如当 $p$ 具有多个峰时， $q$ 选择将这些峰模糊在一起，以便将高概率质量放到所有峰上。
$D_{kl}(q||p)$ ：模型倾向选择一个分布 $q$ ，使得它在 $p$ 具有低概率的地方具有低概率。当 $p$ 具有多个峰且这些峰间隔很宽时， $q$ 会选择单个峰，以避免将概率质量放在 $p$ 的多个峰之间的低概率区域。另外，如果这些峰没有别足够强的低概率区域分离，那么也可以选择这个公式来强调高概率的地方具有高概率的结果，此时这个方向的KL散度仍然可能选择模糊这些峰。
两个方向的KL散度选择
KL散度是非负的。

KL散度在神经网络中的用法

因为神经网络一般不会预测出分布的概率密度函数，所以以上直接基于概率密度函数的公式没法用，但是可以用经过变换之后的公式来计算两个分布的KL散度。
一般神经网络都是通过预测出分布的均值和方差，再计算与真实分布的KL距离。
1、假设 $\mathbf p_{n×m}$ 是服从原分布的n个样本，每个样本有m个维度。 $\mu_{\mathbf p},\Sigma_{\mathbf p}$ 为真实分布的均值和协方差矩阵， $\mu_{\mathbf q},\Sigma_{\mathbf q}$ 为网络预测的均值方差，那么真实分布和网络预测的分布KL散度为：
$D_{kl}(\mathbf p || \mathbf q)=\frac12 \{log\frac {|\Sigma_\mathbf q|}{|\Sigma_\mathbf p|}-m+tr(\Sigma_\mathbf q^{-1} \Sigma_\mathbf p)+(\mu_{\mathbf q}-\mu_{\mathbf p})^T \Sigma_q^{-1}(\mu_{\mathbf q}-\mu_{\mathbf p}) \}$
2、当真实分布 $\mathbf p$ 服从一元标准正态分布，即 $\mathbf p \sim N(0,1)$ ，网络预测的均值和方差为 $\mathbf q \sim N(\mu, \sigma^2)$
$D_{kl}\{N(\mu,\sigma^2) || N(0,1)\}= \frac12 \{ -log \sigma^2 + \mu^2+ \sigma^2 - 1\}$
这个公式更多的用在VAE网络中。