多变量高斯分布的KL散度

最新推荐文章于 2024-02-27 14:36:44 发布

昕晛

最新推荐文章于 2024-02-27 14:36:44 发布

阅读量1.2k

点赞数 6

分类专栏：统计、散度、熵

本文链接：https://blog.csdn.net/sinat_33598258/article/details/103866549

版权

统计、散度、熵专栏收录该内容

3 篇文章 0 订阅

订阅专栏

多变量高斯分布的KL散度

假设多元变量 $x$ 服从多元变量高斯分布（也称为多变量高斯分布,multivariate Gaussian distribution），即 $x\sim \mathcal{N}(\mu,\Sigma)$ ，其中 $\mu$ 为均值， $\Sigma$ 为协方差矩阵，则多变量高斯分布的概率密度函数PDF定义为
$f(x)=\frac{1}{(\sqrt{2\pi})^N (\det \Sigma)^{\frac{1}{2}}}\exp\{-\frac{(x-\mu)^T\Sigma^{-1}(x-\mu)}{2}\}$
其中协方差矩阵 $\Sigma$ 满足对称正定性质， $N$ 为多元变量 $x$ 的维数。

两个多变量高斯分布之间的KL散度为
$\begin{aligned} &\quad D_{KL}(p(x)||q(x))=\int p(x) \log \frac{p(x)}{q(x)} dx=\mathbb{E}_{p(x)}[\log p(x)-\log q(x)]\\ &=\frac{1}{2}\mathbb{E}_{p(x)}[-\log\det \Sigma_1-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)+\log\det \Sigma_2+(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}+\frac{1}{2}\mathbb{E}_{p(x)}[-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)+(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}+\frac{1}{2}\mathbb{E}_{p(x)}\{-tr[\Sigma_1^{-1}(x-\mu_1)(x-\mu_1)^T]+tr[\Sigma_2^{-1}(x-\mu_2)(x-\mu_2)^T]\}\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}-\frac{1}{2}tr\{\mathbb{E}_{p(x)}[\Sigma_1^{-1}(x-\mu_1)(x-\mu_1)^T]\} +\frac{1}{2}tr\{\mathbb{E}_{p(x)}[\Sigma_2^{-1}(x-\mu_2)(x-\mu_2)^T]\}\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}-\frac{N}{2} +\frac{1}{2}tr\{\mathbb{E}_{p(x)}[\Sigma_2^{-1}(xx^T-\mu_2x^T-x\mu_2^T+\mu_2\mu_2^T)]\}\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}-\frac{N}{2} +\frac{1}{2}tr[\Sigma_2^{-1}(\Sigma_1+\mu_1\mu_1^T-\mu_2\mu_1^T-\mu_1\mu_2^T+\mu_2\mu_2^T)]\\ &=\frac{1}{2}\log \frac{\det \Sigma_2}{\det \Sigma_1}-\frac{N}{2} +\frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1)+\frac{1}{2}tr[\Sigma_2^{-1}(\mu_1\mu_1^T-\mu_2\mu_1^T-\mu_1\mu_2^T+\mu_2\mu_2^T)]\\ &=\frac{1}{2}\{\log \frac{\det \Sigma_2}{\det \Sigma_1}-N +tr(\Sigma_2^{-1}\Sigma_1)+tr(\mu_1^T\Sigma_2^{-1}\mu_1-\mu_1^T\Sigma_2^{-1}\mu_2-\mu_2^T\Sigma_2^{-1}\mu_1+\mu_2^T\Sigma_2^{-1}\mu_2)\}\\ &=\frac{1}{2}\{\log \frac{\det \Sigma_2}{\det \Sigma_1}-N +tr(\Sigma_2^{-1}\Sigma_1)+tr(\mu_1^T\Sigma_2^{-1}\mu_1-2\mu_1^T\Sigma_2^{-1}\mu_2+\mu_2^T\Sigma_2^{-1}\mu_2)\}\\ &=\frac{1}{2}\{\log \frac{\det \Sigma_2}{\det \Sigma_1}-N +tr(\Sigma_2^{-1}\Sigma_1)+(\mu_2-\mu_1)^T\Sigma_2^{-1}(\mu_2-\mu_1)\}\\ \end{aligned}$
其中运用到的一些矩阵等式：

矩阵的迹的性质

$矩阵线性组合迹不变：tr(\alpha A+\beta B)=\alpha tr(A)+\beta tr(B)$

$矩阵转置迹不变：tr(A)=tr(A^T)$

$两方阵相乘交换迹不变： t r (A B) = t r (B A)$

$轮换不变性： t r (A B C) = t r (B C A) = t r (C A B)$

对于列向量 $\lambda$ ， $\lambda^TA\lambda$ 的结果是一个标量，而标量的迹就是这个标量，即 $tr(\lambda^TA\lambda)=\lambda^TA\lambda$ ，因此
$\lambda^TA\lambda=tr(\lambda^TA\lambda)=tr(A\lambda\lambda^T)$

多变量分布中期望 $\mu$ 与协方差 $\Sigma$ 的性质

(1) $\mathbb{E}[xx^T]=\Sigma+\mu \mu^T$
$\begin{aligned} 证明：\Sigma&=\mathbb{E}[(x-\mu)(x-\mu)^T]\\ &=\mathbb{E}[(xx^T-x\mu^T-\mu x^T+\mu\mu^T]\\ &=\mathbb{E}[xx^T]-\mu\mu^T-\mu\mu^T+\mu\mu^T\\ &=\mathbb{E}[xx^T]-\mu\mu^T \end{aligned}$
(2) $\mathbb{E}(x^TAx)=tr(A\Sigma)+\mu^TA\mu$
$\begin{aligned} 证明：& 因为x^TAx的结果是一个标量，利用前面提到的trick（tr(x^TAx）=tr(Axx^T)，可得：\\ &\quad \mathbb{E}(x^TAx)=\mathbb{E}[tr(Axx^T)]=tr[\mathbb{E}(Axx^T)]\\ &=tr[A\mathbb{E}(xx^T)]=tr[A(\Sigma+\mu \mu^T)]=tr(A\Sigma)+tr(A\mu\mu^T)\\ &=tr(A\Sigma)+tr(\mu^TA\mu)=tr(A\Sigma)+\mu^TA\mu \end{aligned}$

上式的证明中考虑了求迹运算 $tr(\cdot)$ 和求期望运算 $\mathbb{E}[\cdot]$ 的可交换性.

参考：
[1]: https://blog.csdn.net/wangpeng138375/article/details/78060753

昕晛

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
多变量高斯分布的KL散度

多变量高斯分布的KL散度假设多元变量xxx服从多元变量高斯分布（也称为多变量高斯分布,multivariate Gaussian distribution），即x∼N(μ,Σ)x\sim \mathcal{N}(\mu,\Sigma)x∼N(μ,Σ)，其中μ\muμ为均值，Σ\SigmaΣ为协方差矩阵，则多变量高斯分布的概率密度函数PDF定义为f(x)=1(2π)N(det⁡Σ)12exp⁡{...
复制链接

扫一扫