高斯分布的KL散度

最新推荐文章于 2024-06-16 10:45:52 发布

HEGSNS

最新推荐文章于 2024-06-16 10:45:52 发布

阅读量1.3w

点赞数 62

本文链接：https://blog.csdn.net/hegsns/article/details/104857277

版权

两个高斯分布的KL散度其实很简单，只要找到合适的方法。

一. 一维高斯分布
KL散度的定义为：
$\begin{aligned} KL(\mathcal{N}(\mu_1, \sigma_1^2) || \mathcal{N}(\mu_2, \sigma_2^2)) &= \int_x \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} \log \frac{\frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}}{\frac{1}{\sqrt{2\pi}\sigma_2} e^{-\frac{(x-\mu_2)^2}{2\sigma_2^2}}} dx \\ &= \int_x \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} \Bigg[ \log \frac{\sigma_2}{\sigma_1} - \frac{(x-\mu_1)^2}{2\sigma_1^2} + \frac{(x-\mu_2)^2}{2\sigma_2^2} \Bigg] dx \end{aligned}$

第一项很简单，用全积分为1的性质即可：
$\begin{aligned} \log \frac{\sigma_2}{\sigma_1} \int_x \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} dx = \log \frac{\sigma_2}{\sigma_1} \end{aligned}$

第二项需要分辨出积分项为方差：
$\begin{aligned} -\frac{1}{2\sigma_1^2} \int_x (x-\mu_1)^2 \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} dx = -\frac{1}{2\sigma_1^2} \sigma_1^2 = -\frac{1}{2} \end{aligned}$

第三项的积分内部分别是均方值、均值和常数，因此可以得到：
$\begin{aligned} \frac{1}{2\sigma_2^2} \int_x (x-\mu_2)^2 \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} dx &= \frac{1}{2\sigma_2^2} \int_x ( x^2 - 2\mu_2 x + \mu_2^2 ) \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} dx \\ &= \frac{\sigma_1^2 + \mu_1^2 - 2 \mu_1 \mu_2+ \mu_2^2}{2\sigma_2^2} = \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} \end{aligned}$
也可以用一个小技巧来化简，其中第一项为方差，第二项为奇函数全积分为0，第三项为常数可以提取为系数：
$\begin{aligned} \frac{1}{2\sigma_2^2} \int_x (x-\mu_2)^2 \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} dx &= \frac{1}{2\sigma_2^2} \int_x \big[ (x-\mu_1)^2 + 2(\mu_1 - \mu_2)(x - \mu_1) + (\mu_1 - \mu_2)^2 \big] \frac{1}{\sqrt{2\pi}\sigma_1} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} dx \\ &= \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} \end{aligned}$

整理最终结果，两个高斯分布的KL散度为：
$KL(\mathcal{N}(\mu_1, \sigma_1^2) || \mathcal{N}(\mu_2, \sigma_2^2)) = \log \frac{\sigma_2}{\sigma_1} -\frac{1}{2} + \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2}$

二. 多元高斯分布

$\begin{aligned} \mathcal{N}(x | \mu, \Sigma) = \frac{1}{(2\pi)^\frac{K}{2} |\Sigma|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x - \mu)} \end{aligned}$

$\begin{aligned} KL(\mathcal{N}(x | \mu_1, \Sigma_1) || \mathcal{N}(x | \mu_2, \Sigma_2)) &= \int_{x_1} \cdots \int_{x_K} \frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1)} \log \frac{\frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1)}}{\frac{1}{(2\pi)^\frac{K}{2} |\Sigma_2|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_2)^T \Sigma_2^{-1} (x - \mu_2)}} dx_1 \cdots dx_K \\ &= \int_{x_1} \cdots \int_{x_K} \frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma^{-1} (x - \mu_1)} \Bigg[ \frac{1}{2} \log \frac{|\Sigma_2|}{|\Sigma_1|} - \frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1) + \frac{1}{2}(x - \mu_2)^T \Sigma_2^{-1} (x - \mu_2) \Bigg] dx_1 \cdots dx_K \end{aligned}$
同样分别计算三项的结果，第一项：
$\begin{aligned} \frac{1}{2} \log \frac{|\Sigma_2|}{|\Sigma_1|} \int_{x_1} \cdots \int_{x_K} \frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1)} dx_1 \cdots dx_K = \frac{1}{2} \log \frac{|\Sigma_2|}{|\Sigma_1|} \end{aligned}$
第二项：
$\begin{aligned} &-\frac{1}{2} \int_{x_1} \cdots \int_{x_K} \frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1)} (x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1) dx_1 \cdots dx_K \\ \end{aligned}$
$\Sigma_1$ 为半正定对称矩阵，设 $\Sigma_1^{-1} = U^T U$ , $\mu_1)$ ，由于线性变换矩阵就是雅克比矩阵，因此
$dy_1 \cdots dy_K = |U| dx_1 \cdots dx_K$
由 $|\Sigma_1^{-1}| = |U|^2$ ，可知 $|\Sigma_1^{-\frac{1}{2}}| = |\Sigma_1|^{-\frac{1}{2}} = |U|$ ，因此
$\begin{aligned} &-\frac{1}{2 |\Sigma_1|^{\frac{1}{2}}} \int_{y_1} \cdots \int_{y_K} \frac{1}{(2\pi)^\frac{K}{2} } e^{-\frac{1}{2} y^Ty} y^Ty |U|^{-1} dy_1 \cdots dy_K \\ &= -\frac{1}{2 |\Sigma_1|^{\frac{1}{2}}} |\Sigma_1|^{\frac{1}{2}} \cdot K = -\frac{K}{2} \end{aligned}$

第三项需要利用一个小技巧：
$x^T A x = tr(A xx^T)$

$\begin{aligned} &\frac{1}{2} \int_{x_1} \cdots \int_{x_K} \frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1)} (x - \mu_2)^T \Sigma_2^{-1} (x - \mu_2) dx_1 \cdots dx_K \\ &= \frac{1}{2} \int_{x_1} \cdots \int_{x_K} \frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1)} tr[ \Sigma_2^{-1} (x - \mu_2) (x - \mu_2)^T ] dx_1 \cdots dx_K\\ &= \frac{1}{2} tr \Bigg[ \Sigma_2^{-1} \int_{x_1} \cdots \int_{x_K} \frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1)} (x - \mu_2) (x - \mu_2)^T \Bigg] dx_1 \cdots dx_K\\ &= \frac{1}{2} tr \Bigg[ \Sigma_2^{-1} \int_{x_1} \cdots \int_{x_K} \frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1)} (x x^T - \mu_2 x^T - x \mu_2^T + \mu_2 \mu_2^T ) \Bigg] dx_1 \cdots dx_K\\ \end{aligned}$
其中积分之后第一项为均方值，第二、三项为均值，第三项为常数：
$\begin{aligned} &\frac{1}{2} tr \Bigg[ \Sigma_2^{-1} \int_{x_1} \cdots \int_{x_K} \frac{1}{(2\pi)^\frac{K}{2} |\Sigma_1|^{\frac{1}{2}}} e^{-\frac{1}{2}(x - \mu_1)^T \Sigma_1^{-1} (x - \mu_1)} (x x^T - \mu_2 x^T - x \mu_2^T + \mu_2 \mu_2^T ) \Bigg] dx_1 \cdots dx_K\\ &= \frac{1}{2} tr [ \Sigma_2^{-1} (\Sigma_1 + \mu_1 \mu_1^T - \mu_2 \mu_1^T - \mu_1 \mu_2^T + \mu_2 \mu_2^T)] \\ &= \frac{1}{2} \big[ tr ( \Sigma_2^{-1} \Sigma_1 ) + tr( \Sigma_2^{-1} (\mu_1 - \mu_2) (\mu_1 - \mu_2)^T ) \big] \\ &= \frac{1}{2} \big[ tr ( \Sigma_2^{-1} \Sigma_1 ) + (\mu_1 - \mu_2)^T \Sigma_2^{-1} (\mu_1 - \mu_2) \big] \\ \end{aligned}$

整理最终结果，两个高斯分布的KL散度为：
$\begin{aligned} KL(\mathcal{N}(x | \mu_1, \Sigma_1) || \mathcal{N}(x | \mu_2, \Sigma_2)) = \frac{1}{2} \Bigg[ \log \frac{|\Sigma_2|}{|\Sigma_1|} - K + tr ( \Sigma_2^{-1} \Sigma_1 ) + (\mu_1 - \mu_2)^T \Sigma_2^{-1} (\mu_1 - \mu_2) \Bigg] \\ \end{aligned}$

HEGSNS

关注

62
点赞
踩
133

收藏

觉得还不错? 一键收藏
4
评论
高斯分布的KL散度

两个高斯分布的KL散度其实很简单，只要找到合适的方法。闲话不多说，KL散度的定义为：KL(N(μ1,σ12)∣∣N(μ2,σ22))=∫x12πσ1e−(x−μ1)22σ12log⁡12πσ1e−(x−μ1)22σ1212πσ2e−(x−μ2)22σ22dx=∫x12πσ1e−(x−μ1)22σ12[log⁡σ2σ1−(x−μ1)22σ12+(x−μ2)22σ22]dx\begin{align...
复制链接

扫一扫