两个高斯分布KL散度推导

最新推荐文章于 2024-03-13 14:13:31 发布

u小鬼

最新推荐文章于 2024-03-13 14:13:31 发布

阅读量1.4k

点赞数 28

分类专栏：机器学习文章标签：概率论机器学习

本文链接：https://blog.csdn.net/qq_23096319/article/details/136320745

版权

机器学习专栏收录该内容

21 篇文章 11 订阅

订阅专栏

本文详细解释了Kullback-Leibler散度（KL散度）的概念，包括其定义、离散和连续随机变量的表示，以及在机器学习中的应用，特别给出了两个高斯分布间的KL散度计算公式。

摘要由CSDN通过智能技术生成

KL散度基本概念

Kullback-Leibler 散度（KL散度），也称为相对熵，是衡量两个概率分布相对差异的一种方法。它是信息论中的一个概念，由Solomon Kullback和Richard Leibler在1951年提出。KL散度是非对称的，这意味着从分布 $P$ 到分布 $Q$ 的KL散度通常不等于从分布 $Q$ 到分布 $P$ 的KL散度。

对于离散随机变量，KL散度定义为：

$D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \left(\frac{P(x)}{Q(x)}\right)$

其中， $P$ 和 $Q$ 是两个概率分布，且 $P (x)$ 是在 $x$ 处 $P$ 的概率，而 $Q (x)$ 是在 $x$ 处 $Q$ 的概率。对数底通常为2（比特为单位）或 $e$ （自然单位）。

对于连续随机变量，KL散度通过概率密度函数来定义，并通过积分来计算：

$D_{KL}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \log \left(\frac{p(x)}{q(x)}\right) dx$

其中， $p (x)$ 和 $q (x)$ 分别是连续随机变量的两个概率密度函数。

KL散度在机器学习、统计建模和信息论中有广泛的应用，例如在模型选择、贝叶斯推理和变分推断中。

两个高斯分布KL散度推导

计算两个连续概率分布的KL散度涉及积分运算，因为连续分布的概率是通过概率密度函数 (pdf) 定义的。

这里是一个计算两个高斯分布KL散度的例子，其中 $p (x)$ 是均值为 $\mu_1$ 和方差为 $\sigma_1^2$ 的分布， $q (x)$ 是均值为 $\mu_2$ 和方差为 $\sigma_2^2$ 的分布：

$D_{KL}(P \parallel Q) = \log\left(\frac{\sigma_2}{\sigma_1}\right) + \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} - \frac{1}{2}$

具体推导如下：

设 $P$ 为均值 $\mu_1$ 、方差 $\sigma_1^2$ 的高斯分布， $Q$ 为均值 $\mu_2$ 、方差 $\sigma_2^2$ 的高斯分布。它们的概率密度函数分别为：

$\frac{1}{\sqrt{2\pi\sigma_1^2}} e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}$
$\frac{1}{\sqrt{2\pi\sigma_2^2}} e^{-\frac{(x-\mu_2)^2}{2\sigma_2^2}}$

KL散度定义为：

$D_{KL}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \log\left(\frac{p(x)}{q(x)}\right) dx$

将高斯密度函数代入，分解对数项并简化：

$D_{KL}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \left[ \log\left(\frac{\sigma_2}{\sigma_1}\right) - \frac{(x-\mu_1)^2}{2\sigma_1^2} + \frac{(x-\mu_2)^2}{2\sigma_2^2} \right] dx$

接下来分三个部分积分：

第一部分是 $\log\left(\frac{\sigma_2}{\sigma_1}\right)$ 乘以 $p (x)$ 的积分，即：

$\int_{-\infty}^{\infty} p(x) \log\left(\frac{\sigma_2}{\sigma_1}\right) dx = \log\left(\frac{\sigma_2}{\sigma_1}\right)$

因为 $p (x)$ 的积分（即概率）总和为1。

第二部分是 $\frac{(x-\mu_1)^2}{2\sigma_1^2}$ 乘以 $p (x)$ 的积分。由于 $(x-\mu_1)^2$ 是 $p (x)$ 的方差项（换而言之这个积分就是 $Var(X) = E[(X - E[X])^2]$ ），根据高斯分布定义，其积分等于 $\sigma_1^2$ ，即：

$\int_{-\infty}^{\infty} p(x) \frac{(x-\mu_1)^2}{2\sigma_1^2} dx = \frac{1}{2}$

第三部分是 $\frac{(x-\mu_2)^2}{2\sigma_2^2}$ 乘以 $p (x)$ 的积分。由于 $x$ 的分布与 $\mu_2$ 和 $\sigma_2$ 无关，这个积分涉及到展开 $(x-\mu_2)^2$ 并完成积分。

为了计算这个积分，我们首先将 $(x-\mu_2)^2$ 展开：

$(x-\mu_2)^2 = x^2 - 2x\mu_2 + \mu_2^2$

然后，我们将展开后的表达式代入积分中，得到三个部分：

$\frac{1}{2\sigma_2^2} \left[ \int_{-\infty}^{\infty} x^2 p(x) dx - 2\mu_2 \int_{-\infty}^{\infty} x p(x) dx + \mu_2^2 \int_{-\infty}^{\infty} p(x) dx \right]$

接下来，我们计算每个部分：

第一部分是关于 $x^2$ 的高斯积分，可以通过将 $x$ 视为 $(x-\mu_1)+\mu_1$ 并展开 $x^2$ ，然后使用高斯积分的已知结果来计算。这个部分的结果是 $\sigma_1^2 + \mu_1^2$ 。
第二部分是关于 $x$ 的高斯积分，它是 $\mu_1$ ，因为 $x$ 的期望值是 $\mu_1$ 。
第三部分是一个标准的高斯积分，其结果是 1，因为高斯分布的总积分为 1。

将这些结果组合起来，我们得到：

$\frac{1}{2\sigma_2^2} \left[ (\sigma_1^2 + \mu_1^2) - 2\mu_2\mu_1 + \mu_2^2 \right]$

简化后得到：

$\frac{1}{2\sigma_2^2} (\sigma_1^2 + (\mu_1 - \mu_2)^2)$

所以，

$\int_{-\infty}^{\infty} p(x) \frac{(x-\mu_2)^2}{2\sigma_2^2} dx = \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2}$

将这三个部分合并，我们得到：

$D_{KL}(P \parallel Q) = \log\left(\frac{\sigma_2}{\sigma_1}\right) + \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2\sigma_2^2} - \frac{1}{2}$

这是两个高斯分布之间的KL散度的封闭形式解。

u小鬼

关注

28
点赞
踩
28

收藏

觉得还不错? 一键收藏
打赏
1
评论
两个高斯分布KL散度推导

Kullback-Leibler 散度（KL散度），也称为相对熵，是衡量两个概率分布相对差异的一种方法。KL散度是非对称的，这意味着从分布。计算两个连续概率分布的KL散度涉及积分运算，因为连续分布的概率是通过概率密度函数 (pdf) 定义的。KL散度在机器学习、统计建模和信息论中有广泛的应用，例如在模型选择、贝叶斯推理和变分推断中。第三部分是一个标准的高斯积分，其结果是 1，因为高斯分布的总积分为 1。这里是一个计算两个高斯分布KL散度的例子，其中。这是两个高斯分布之间的KL散度的封闭形式解。
复制链接

扫一扫