熵，KL散度，交叉熵

最新推荐文章于 2024-05-22 12:38:16 发布

geter_CS

最新推荐文章于 2024-05-22 12:38:16 发布

阅读量3.6k

点赞数 8

分类专栏：深度学习机器学习文章标签：熵 KL散度交叉熵

本文链接：https://blog.csdn.net/geter_CS/article/details/84761204

版权

深度学习同时被 2 个专栏收录

23 篇文章 4 订阅

订阅专栏

机器学习

21 篇文章 3 订阅

订阅专栏

在信息论中定义一个事件 $X = x$ 的自信息（self-information）为： $I (p) = - l o g p$ ,表示以 $P (X = x) = p$ 的概率观测到的这事件时所包含的信息量，单位为奈特（nats）,P(X=x)表示事件的概率其值为p，那么一奈特就是：以 $1 / e$ 的概率观察到一个事件时获取的信息量（ $- l o g (1 / e) = 1$ ）。可以看出自信息和熵与事件的值无关，只与其概率有关。 深度学习中log底数通常为 $e$ 。
熵（香农熵） 表示对整个概率分布中的不确定性总量的量化（说的通俗点就是表示随机变量不确定性的度量），表示为 $H(p)=E_{x\sim P}[I(p)]=-E_{x\sim P}[log p]$ 。因为分别对应离散型随机变量和连续性随机变量，期望就是加权平均或积分，。

所以对于离散型随机变量 $X$ 其概率分布为 $P(X=x_i)=p_i，i=1,2...n$
则 $X$ 的熵可以表示为：
$H(p)=-\sum_{i=1}^{n}p_ilog(p_i)$

对于连续型随机变量 $X$ ，其取值范围是 $[a, b]$ ，则 $X$ 的熵可以表示为：
$H(p)=-\int_{a}^{b}p(x)log(p(x))dx$
这里的 $p (x)$ 为分布函数。
如果对于同一个随机变量X，有两个概率分布，分别是Q和P，我们可以使用 KL散度 来衡量这两个分布之间的差异：
$D_{KL}(P||Q)=E_{x\sim P}[log(\frac{P}{Q})]=E_{x\sim P}[logp-log(q)]=\sum_{i=1}^{n}p_ilog(p_i)-\sum_{i=1}^{n}p_ilog(q_i)(离散)$
当这两个离散分布是相同的，或者这两个连续分布是“几乎处处“”相同时，KL散度是为0的。KL散度并不是对称的，对于某些分布P和Q的 $D_{KL}(P||Q)\neq D_{KL}(Q||P)$ 。因此KL散度的选择有很大的影响。

在实际的应用中，若我们的训练数据的上的经验分布表示为 $p_{data}$ (用经验分布来代表实际分布，因为实际分布是不知道的，我们可以用样本经验分布来近似得到)，模型分布表示为 $p_{model}$ ，那么可以通过最小化KL散度来求得模型分布 $p_{model}$ ,KL散度表示为： $D_{KL}(p_{data}||p_{model})=E_{x\sim p_{data}}[logp_{data}-logp_{model}]$ ，相当于最小化 $-E_{x\sim p_{data}}[logp_{model}]$ ，这是因为经验分布与参数无关, 所以最终的优化目标是模型的分布的熵。这从另外一个KL角度解释了最大熵模型的原理。

另外一个概念是 交叉熵 (cross-entropy)，表示为熵和KL散度的和的形式：
$H(P,Q)=H(P)+D_{KL}(P||Q)=-E_{x\sim P}[log p]+E_{x\sim P}[logp-logq]=-E_{x\sim P}[logq]=-\sum_{i=1}^{n}p_ilog(q_i)$ （离散）我们可以看见，当 $P$ 为经验分布 $p_{data}$ , $Q$ 为模型分布 $p_{model}时$ ，以交叉熵作为优化目标与最小化KL散度是等价的，所以交叉熵可以作为损失函数来使用。例如pytorch损失函数值之nn.BCELoss()（为甚么用交叉熵作为损失函数）

概率论与数理统计浙大第四版
Deep Learning 伊恩·古德费洛（中文）
Neural Network and Deep Learning ，Michael Nielsen（中文）

geter_CS

关注

8
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
熵，KL散度，交叉熵

在信息论中定义一个事件X=xX=xX=x的自信息（self-information）为：I(p)=−logpI(p)=-logpI(p)=−logp,表示以P(X=x)=pP(X=x)=pP(X=x)=p的概率观测到的这事件时所包含的信息量，单位为奈特（nats）,P(X=x)表示事件的概率其值为p，那么一奈特就是：以1/e1/e1/e的概率观察到一个事件时获取的信息量（−log(1/e)=1-l...
复制链接

扫一扫

专栏目录