高斯分布的KLD总结

最新推荐文章于 2024-09-17 16:29:03 发布

草还丹

最新推荐文章于 2024-09-17 16:29:03 发布

阅读量878

点赞数 14

文章标签：概率论机器学习线性代数

本文链接：https://blog.csdn.net/weixin_42673393/article/details/139879226

版权

前置基础

矩阵内积

给定两个 $m\times n$ 的矩阵 $\mathbf A$ 和 $\mathbf B$ ，其矩阵内积（也称为Frobenius inner product）定义为：
$<\mathbf A,\mathbf B>=\sum_{i=1}^{m}\sum_{j=1}^{n}a_{ij}b_{ij}=tr(\mathbf A^T\mathbf B)$

分布与期望

给定随机变量 $X\sim\mathcal{N}(\boldsymbol \mu,\boldsymbol \Sigma)$ ，则有如下等式成立：

$E[\mathbf x\mathbf x^T]=\boldsymbol \Sigma+\boldsymbol \mu\boldsymbol \mu^T$
$E[\mathbf x^T\mathbf A\mathbf x]=tr(\mathbf A\mathbf \Sigma)+\boldsymbol \mu^T\mathbf A\boldsymbol \mu$
$p roo f :$ $E[\mathbf x^T\mathbf A\mathbf x]=E[tr(\mathbf x^T\mathbf A\mathbf x)]=E[tr(\mathbf A\mathbf x\mathbf x^T)]=tr(\mathbf AE[\mathbf x\mathbf x^T])=tr(\mathbf A(\mathbf \Sigma+\boldsymbol \mu\boldsymbol \mu^T))=tr(\mathbf A\mathbf \Sigma)+\boldsymbol \mu^T\mathbf A\boldsymbol \mu$
$E[(\mathbf x-\boldsymbol \mu_1)^T\mathbf A(\mathbf x-\boldsymbol \mu_1)]=tr(\mathbf A\mathbf \Sigma)+(\boldsymbol \mu-\boldsymbol \mu_1)^T\mathbf A(\boldsymbol \mu-\boldsymbol \mu_1)$

KLD定义

给定两个连续时间概率分布的概率密度函数分别为 $p (x)$ 和 $q (x)$ ，其KLD定义为：
$D_{KL}(P||Q)=\int p(x)log(\frac{p(x)}{q(x)})dx$
对于离散变量，给定两个概率分布 $P (x)$ 和 $Q (x)$ ，KLD定义为：
$D_{KL}(P||Q)=\sum_x P(x)log(\frac{P(x)}{Q(x)})$

一元高斯分布

假设连续时间的两个分布均为高斯分布，其中 $P$ 分布均值 $\mu_1$ ，方差为 $\sigma_1$ ， $Q$ 分布均值 $\mu_2$ ，方差为 $\sigma_2$ ，则可以推导对应的KLD：
$\begin{equation} \begin{aligned} D_{KL}(P||Q)&=\int p(x)log(\frac{p(x)}{q(x)})dx \\ &=\int \frac{1}{\sqrt{2\pi\sigma_1^2}}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}[log(\frac{\sigma_2}{\sigma_1})-\frac{(x-\mu_1)^2}{2\sigma_1^2}+\frac{(x-\mu_2)^2}{2\sigma_2^2}]dx \\ &=log(\frac{\sigma_2}{\sigma_1})-\frac{Var(x)}{2\sigma_1^2}+\frac{Var(x)+(\mu_1-\mu_2)^2}{2\sigma_2^2} \\ &=log(\frac{\sigma_2}{\sigma_1})-\frac{1}{2}+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma_2^2} \end{aligned} \notag \end{equation}$

多元高斯分布

对于 $n$ 维随机变量 $X$ ，假设 $P$ 和 $Q$ 分别满足 $\mathcal{N}(\boldsymbol \mu_1,\boldsymbol \Sigma_1)$ 和 $\mathcal{N}(\boldsymbol \mu_2,\boldsymbol \Sigma_2)$ 的分布，则其KLD推导如下：
$\begin{equation} \begin{aligned} &D_{KL}(P||Q)\\ =&\int_{\mathbb{R}^n} p(\mathbf x)log(\frac{p(\mathbf x)}{q(\mathbf x)})d\mathbf x \\ =&\int p(\mathbf x)log(p(\mathbf x))d\mathbf x-\int p(\mathbf x)log(q(\mathbf x))d\mathbf x \\ =&-\frac{1}{2}(log(2\pi^n|\boldsymbol \Sigma_1|)+E[(\mathbf x-\boldsymbol \mu_1)^T\boldsymbol \Sigma_1^{-1}(\mathbf x-\boldsymbol \mu_1)])+\frac{1}{2}(log(2\pi^n|\boldsymbol \Sigma_2|)+E[(\mathbf x-\boldsymbol \mu_2)^T\boldsymbol \Sigma_2^{-1}(\mathbf x-\boldsymbol \mu_2)]) \\ =&\frac{1}{2}[log(\frac{|\boldsymbol \Sigma_2|}{|\boldsymbol \Sigma_1|})-n+tr(\boldsymbol \Sigma_2^{-1}\boldsymbol \Sigma_1)+(\boldsymbol \mu_1-\boldsymbol \mu_2)^T\mathbf \Sigma_2^{-1}(\boldsymbol \mu_1-\boldsymbol \mu_2)]\\ =&\frac{1}{2}[<\boldsymbol \Sigma_2^{-1},\boldsymbol \Sigma_1>+||\boldsymbol \mu_1-\boldsymbol \mu_2||_{\mathbf \Sigma_2^{-1}}-log(|\mathbf \Sigma_2|^{-1}|\mathbf \Sigma_1|)-n] \end{aligned} \notag \end{equation}$

测试验证

% Generate sample data
% case 1
mu_p = [0.5, 1.0]';
sigma_p = diag([1.2, 0.8]);
mu_q = [0.5, 1.0]';
sigma_q = diag([1.2, 0.8]);

% case 2
% mu_p = [0.5, 1.0]';
% sigma_p = diag([1.2 0.8]);
% mu_q = [0.0, 1.5]';
% sigma_q = diag([0.9, 1.1]);

% Calculate KL divergence
kld = cal_KLD(mu_p, sigma_p, mu_q, sigma_q);

% Print the result
disp(['KL divergence: ', num2str(kl_loss)]);

% case 1 output: 0
% case 2 output: 0.44175

function kld = cal_KLD(mu_p, sigma_p, mu_q, sigma_q)
    eps = 1e-8;
    
    sigma_p = sigma_p .^ 2;
    sigma_q = sigma_q .^ 2;
    sigma_p_det = det(sigma_p);
    sigma_q_det = det(sigma_q);
    
    sigma_q_inv = inv(sigma_q);
    delta_u = (mu_q - mu_p);
    term1 = trace(sigma_q \ sigma_p);
    term2 = delta_u' * sigma_q_inv * delta_u;
    term3 = - length(mu_p);
    term4 = log(sigma_q_det + eps) - log(sigma_p_det + eps);
    kld = 0.5 * (term1 + term2 + term3 + term4);
    kld = max(kld, 0);
end