为什么要最大化熵?

为什么要最大化熵?

What entropy represents?

The entropy H ( p ) \mathbf{H}(p) H(p) of some event probability distribution p p p is defined as:

H ( p ) = − ∑ x ∈ X p ( x ) log ⁡ 2 p ( x ) (1) \mathbf{H}(p) = -\sum_{x\in \mathcal{X}}p(x) \log_2 p(x) \tag{1} H(p)=xXp(x)log2p(x)(1)

where X \mathcal{X} X is the set containing all events x x x and p ( x ) p(x) p(x) is the probability of event x x x​ occurring.

现在假设我们想要用一种高效的方式与第三方传达所有事件 x x x的发生。为了做到这一点,我们想要最小化信息长度的期望,所以这些将被频繁发送的信息是短的,而几乎不会被发送的信息被允许是长的。顺着这个思路,我们可以得出ℎ(𝑥)=log2(1/𝑝(𝑥)) ,这是我们应该花在代表事件𝑥的信息上的最佳比特数。随着概率的降低𝑝(𝑥),log2(1/𝑝(𝑥))项会增加。事实上,它是以对数方式增加的,因为有更多的比特可用,我们可以以指数方式编码更多的事件。对熵𝐻使用这一观察结果,就可以得出熵是所有信息的预期信息长度的下限,即:

H ( p ) = E [ h ( x ) ] \mathbf{H}(p)=\mathbb{E}[h(x)] H(p)=E[h(x)]

用一句话来总结这一切。熵是对不确定性的一种衡量。请注意,这实际上是哈夫曼编码的基本原理(由于这种关系,它被保证为最佳。按照一般的做法,我们不使用以二为底的对数,而使用正常的对数。由于log2(𝑥)=log(𝑥)/log(2)成立,我们只是放弃了一个log(2)的常数,这并不影响极值或我们下面的推理,而且简化了进一步的计算。

考虑到这一点,让我们再问一次。为什么我们要使熵最大化?现在我们可以给出一个简单的推理[Jaynes 1957]。我们假设有两个分布,𝑝1和𝑝2,其熵𝐻(𝑝1)>𝐻(𝑝2) 。从我们以前的观察中,我们现在知道,要对来自𝑝1的信息进行编码,在期望值上,我们需要的比特比对来自𝑝2的信息进行编码要多。这是关键的一点,因为这也意味着我们对𝑝1的信息比对𝑝2的信息少。如果我们对一个分布了解得更多,我们就需要更少的比特来对它的事件进行编码。如果我们知道一切,我们不需要发送/编码任何东西,如果我们什么都不知道,我们需要发送一切。

但是,如果我们知道得更多不是很好吗?你可能会问,熵越少越好,对吗?不,对于许多优化问题,或者一般来说,在处理不完整的信息时,不是这样。考虑一个问题,如特征-期望匹配,它有多个解决方案来满足我们的约束。在这个问题上,我们给求解器的唯一信息是我们想要复制的特征-期望。我们的求解器提供的所有解决方案都包含这一信息。但它们肯定有不同的熵值。这肯定意味着(至少)有些解决方案有我们没有提供的额外信息,也就是说,它们有一个偏见。通过选择具有最大熵值的解决方案,我们选择了具有最小信息的解决方案。请注意,所有的解决方案都已经满足了我们的约束条件,因此我们实际上选择的是符合我们信息的、偏差最小的解决方案。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值