熵、交叉熵、KL散度

SP FA

已于 2023-01-14 02:37:40 修改

阅读量490

点赞数 2

分类专栏：机器学习文章标签：算法 python

于 2023-01-14 02:27:17 首次发布

本文链接：https://blog.csdn.net/SP_FA/article/details/128681686

版权

机器学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

熵

考虑如下问题：
我们对于一些 symbols 进行编码，如何使编码长度最短？

假设 symbols 有 A，B，C，D 四种，最简单的想法是用相同长度的二进制进行编码，分别为 00，01，10，11。但是对于一段文本中，这四种 symbols 出现的频率是不同的，如果我们将出现频率高的 symbol 用更短的二进制进行编码，出现频率低的 symbol 使用较长的二进制进行编码，那么我们或许就能获得更优秀的编码方案。

e.g.
$p(A)=\frac12~~~~p(B)=\frac14~~~~p(C)=\frac18~~~~p(D)=\frac18$
那么我们可以将其分别编码为：0，10，110，111。可以算一下平均长度为 1.75 bit，比之前的编码方式减少了 0.25 bit

但是这里出现了一个问题，由于编码长度不同，为了让机器在读取文本编码时知道一个 symbol 的起始位置，需要消除编码的前缀歧义。

e.g.
假设 0 和 01 都是码字，那么对于字符串 011101，机器就分不清到底第一个字符是 0 还是 01。

因此，任何码字都不应该是另一个码字的前缀。这称为前缀属性，遵守该属性的编码称为前缀编码。

使用前缀编码会损失一些码字空间，比如如果有码字 0，那么所有 0 开头的编码都不可以使用了，这样相当于损失了一半的码字空间。更具体一些，对于一个长度为 $L$ 的码字，它损失的码字空间，或者它的代价为
$cost=\frac1{2^L}$
代价越大，说明 $L$ 越小，说明该编码在文本中出现的概率越高。或者可以反过来想，我们想确定一个 symbol 究竟该用多长的编码去表示，我们就需要给 $cos t$ 一个预算，而这个预算与概率成正比，因此我们可以直接使 $cos t = p (x)$ 即： $L(x)=\log_2\frac1{p(x)}$

那么由此可以计算平均编码长度为：
$H(\vec p)=-\sum p_i(x)\log p_i(x)$
其中 $\vec p$ 就是每个 symbol 的概率分布，而 $H(\vec p)$ 就是熵。

熵的意义有很多：

对一段文本进行编码可以使用的最短编码长度（文本压缩）
反应了事件的不确定度。熵越大，事件越不确定。
$-\log p(x)$ 被信息论的创始人香农定义为事件 $x$ 的自信息，即一个概率为 $p (x)$ 的事件 $x$ 的信息量（bit）。熵就是所有事件的自信息的加权和，即这些事件的自信息的平均值。

交叉熵

对于两段文本，它们中 symbols 分布的概率是不同的，如果我们用文本 1 的编码规则去对文本 2 进行编码，那么可能得到的结果并不是最优的（不够短），为了形容两个文本分布概率的不同，我们使用交叉熵：
$H_{\vec p}(\vec q)=-\sum q_i(x)\log p_i(x)$
表示使用 $\vec p$ 的编码规则对 $\vec q$ 进行编码的平均长度。如果两者概率分布相同，则 $H(q)=H_p(q)$ ，否则差异越大，偏差越大。