度量两种分布的距离之KL散度（Kullback-Leibler divergence）

six.学长

于 2024-06-14 10:38:21 发布

阅读量1k

点赞数 20

分类专栏：深度学习文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/m0_51200050/article/details/139675263

版权

63 篇文章 0 订阅

订阅专栏

KL散度（Kullback-Leibler divergence），又称为相对熵，是衡量两个概率分布之间差异的一种非对称性度量。它描述了一个分布 $Q$ 相比于另一个分布 $P$ 的信息损失，常用于信息论和机器学习领域。

KL散度的数学定义为：

$D_{\mathrm{KL}}(P \parallel Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)}$

或在连续情形下：

$D_{\mathrm{KL}}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} \, dx$

其中：

KL散度衡量的是如果用分布 $Q$ 来近似分布 $P$ ，会有多少信息丢失。它本质上是计算每个事件的对数概率比值，再按 $P$ 的概率加权平均。

非负性： $D_{\mathrm{KL}}(P \parallel Q) \geq 0$ ，且当且仅当 $P = Q$ 时取等号。
非对称性： $D_{\mathrm{KL}}(P \parallel Q) \neq D_{\mathrm{KL}}(Q \parallel P)$ ，这意味着交换两个分布的位置会得到不同的结果。
无界性： $D_{\mathrm{KL}}(P \parallel Q)$ 可以是无穷大的，例如当 $Q (i) = 0$ 且 $\neq 0$ 时。