机器学习_KL散度详解（全网最详细）

Rocky Ding*

已于 2022-08-20 12:24:10 修改

阅读量6w

点赞数 94

分类专栏：机器学习文章标签：深度学习概率论 KL散度机器学习生成式模型

于 2019-12-10 15:02:00 首次发布

本文链接：https://blog.csdn.net/Rocky6688/article/details/103470437

版权

机器学习专栏收录该内容

19 篇文章

订阅专栏

KL散度（Kullback-Leibler divergence），可以以称作相对熵（relative entropy）或信息散度（information divergence）。KL散度的理论意义在于度量两个概率分布之间的差异程度，当KL散度越大的时候，说明两者的差异程度越大；而当KL散度小的时候，则说明两者的差异程度小。如果两者相同的话，则该KL散度应该为0。

接下来我们举一个具体的🌰：

我们设定两个概率分布分别为 $P$ 和 $Q$ ，在设定为连续随机变量的前提下，他们对应的概率密度函数分别为 $p (x)$ 和 $q (x)$ 。如果我们用 $q (x)$ 去近似 $p (x)$ ，则KL散度可以表示为：

$\int p(x)\log \frac{p(x)}{q(x)}dx$

从上面的公式可以看出，当且仅当 $P = Q$ 时， $K L (P ∣∣ Q) = 0$ 。此外我们可以知道KL散度具备非负性，即 $K L (P ∣∣ Q) >= 0$ 。并且从公式中我们也发现，KL散度不具备对称性，也就是说 $P$ 对于 $Q$ 的KL散度并不等于 $Q$ 对于 $P$ 的KL散度。因此，KL散度并不是一个度量（metric），即KL散度并非距离。

我们再来看看离散的情况下用 $q (x)$ 去近似 $p (x)$ 的KL散度的公式：

$\sum p(x)\log \frac{p(x)}{q(x)}$

接下来我们对上面的式子进行展开：

$\sum p(x)\log \frac{p(x)}{q(x)} = -\sum p(x)\log(q(x)) + \sum p(x)\log(p(x)) = H(P,Q) - H(P)$

最后得到的第一项称作 $P$ 和 $Q$ 的交叉熵（cross entropy），后面一项就是熵。

在信息论中，熵代表着信息量， $H (P)$ 代表着基于 $P$ 分布自身的编码长度，也就是最优的编码长度（最小字节数）。而 $H (P, Q)$ 则代表着用 $Q$ 的分布去近似 $P$ 分布的信息，自然需要更多的编码长度。并且两个分布差异越大，需要的编码长度越大。所以两个值相减是大于等于0的一个值，代表冗余的编码长度，也就是两个分布差异的程度。所以KL散度在信息论中还可以称为相对熵（relative entropy）。