为什么要最大化熵？

lan_12138

于 2021-08-02 17:05:06 发布

阅读量660

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/lan_12138/article/details/119329447

版权

为什么要最大化熵？

What entropy represents？

The entropy $\mathbf{H}(p)$ of some event probability distribution $p$ is defined as:

$\mathbf{H}(p) = -\sum_{x\in \mathcal{X}}p(x) \log_2 p(x) \tag{1}$

where $\mathcal{X}$ is the set containing all events $x$ and $p (x)$ is the probability of event $x$ occurring.

现在假设我们想要用一种高效的方式与第三方传达所有事件 $x$ 的发生。为了做到这一点，我们想要最小化信息长度的期望，所以这些将被频繁发送的信息是短的，而几乎不会被发送的信息被允许是长的。顺着这个思路，我们可以得出ℎ(𝑥)=log2(1/𝑝(𝑥)) ，这是我们应该花在代表事件𝑥的信息上的最佳比特数。随着概率的降低𝑝(𝑥)，log2(1/𝑝(𝑥))项会增加。事实上，它是以对数方式增加的，因为有更多的比特可用，我们可以以指数方式编码更多的事件。对熵𝐻使用这一观察结果，就可以得出熵是所有信息的预期信息长度的下限，即：

$\mathbf{H}(p)=\mathbb{E}[h(x)]$

用一句话来总结这一切。熵是对不确定性的一种衡量。请注意，这实际上是哈夫曼编码的基本原理（由于这种关系，它被保证为最佳。按照一般的做法，我们不使用以二为底的对数，而使用正常的对数。由于log2(𝑥)=log(𝑥)/log(2)成立，我们只是放弃了一个log(2)的常数，这并不影响极值或我们下面的推理，而且简化了进一步的计算。

考虑到这一点，让我们再问一次。为什么我们要使熵最大化？现在我们可以给出一个简单的推理[Jaynes 1957]。我们假设有两个分布，𝑝1和𝑝2，其熵𝐻(𝑝1)>𝐻(𝑝2) 。从我们以前的观察中，我们现在知道，要对来自𝑝1的信息进行编码，在期望值上，我们需要的比特比对来自𝑝2的信息进行编码要多。这是关键的一点，因为这也意味着我们对𝑝1的信息比对𝑝2的信息少。如果我们对一个分布了解得更多，我们就需要更少的比特来对它的事件进行编码。如果我们知道一切，我们不需要发送/编码任何东西，如果我们什么都不知道，我们需要发送一切。

但是，如果我们知道得更多不是很好吗？你可能会问，熵越少越好，对吗？不，对于许多优化问题，或者一般来说，在处理不完整的信息时，不是这样。考虑一个问题，如特征-期望匹配，它有多个解决方案来满足我们的约束。在这个问题上，我们给求解器的唯一信息是我们想要复制的特征-期望。我们的求解器提供的所有解决方案都包含这一信息。但它们肯定有不同的熵值。这肯定意味着（至少）有些解决方案有我们没有提供的额外信息，也就是说，它们有一个偏见。通过选择具有最大熵值的解决方案，我们选择了具有最小信息的解决方案。请注意，所有的解决方案都已经满足了我们的约束条件，因此我们实际上选择的是符合我们信息的、偏差最小的解决方案。

lan_12138

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
为什么要最大化熵？

为什么要最大化熵？What entropy represents？The entropy H(p)\mathbf{H}(p)H(p) of some event probability distribution ppp is defined as:H(p)=−∑x∈Xp(x)log⁡2p(x)(1)\mathbf{H}(p) = -\sum_{x\in \mathcal{X}}p(x) \log_2 p(x) \tag{1}H(p)=−x∈X∑p(x)log2p(x)(1)where X\mat
复制链接

扫一扫