机器学习相关基础-信息论

  信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送信息,例如通过无线电传输通信。在这种情况下,信息论告诉我们如何对消息设计最优编码以及计算消息的期望长度,(这里为后文做个铺垫,即消息中出现概率较大的字母使用较短的编码长度,而出现概率较小的字母,则使用较长的编码长度),这些消息是使用多种不同编码机制、从特定的概率分布上采样得到的。在机器学习中,我们也可以把信息论应用于连续型变量。

  信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。消息说“今天早上太阳升起”,信息量很少,以至于没有必要推送;若是说:“今天早上有日食”,信息量就丰富了。

  我们想要通过这种基本想法来量化信息。特别是:

  (1) 非常可能发生的事件信息量比较少;
  (2) 较不可能发生的事件具有更高的信息量;
  (3) 独立事件应具有增量的信息。(例如:投掷硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍)

1. 自信息(self-information)

  为满足以上3个性质,我们定义了一个事件 X = x X=x X=x的自信息为

(1) I ( X ) = − l o g P ( x ) I(X)=-logP(x)\tag{1} I(X)=logP(x(1)

  这个公式在很多的书籍、文章或者博客中,都是直接给出的,并没有相应的推导。

  而用到的 l o g log log函数,并非只是刚好满足这3个性质,对于其唯一性定理的证明较为复杂,此处不做详细讲解,可参考清华大学张林老师的《应用信息论基础》课程(学堂在线)。

2. 香农熵(熵)

  这里所提到的香农熵(Shannon Entropy),在后文中一律简称为熵(Entropy)。

  自信息只是处理单个的输出,而熵可以用来对整个概率分布中的不确定性总量进行量化。一个离散型随机变量 X X X的熵 H ( X ) H(X) H(X)定义为

(2) H ( X ) = − ∑ x ∈ X p ( x ) l o g p ( x ) = − E x ∼ p [ I ( x ) ] = − E x ∼ p [ l o g p ( x ) ] H(X)=-\sum_{x\in\mathcal{X}}p(x)logp(x)=-E_{x\sim p}[I(x)]=-E_{x\sim p}[logp(x)]\tag{2} H(X)=xXp(x)logp(x)=Exp[I(x)]=Exp[logp(x)](2)

  从以上公式定义可以看出,熵是遵循某分布的事件所产生的期望信息总量。

  它给出了对依据概率分布 P P P生成的符号进行编码所需要的比特数在平均意义上的下界。

  当 x x x是连续型的,香农熵被称为微分熵

  例 1 二值随机变量的熵

  设

(3) X = { 1 概 率 为 p 0 概 率 为 1 − p X=\left\{\begin{matrix} \begin{aligned} &1 &&概率为p& \\ &0 &&概率为1-p& \end{aligned} \end{matrix}\right.\tag{3} X={ 10p1p(3)

  于是

(4) H ( X ) = − p l o g p − ( 1 − p ) l o g ( 1 − p ) H(X)=-plogp-(1-p)log(1-p)\tag{4} H(X)=plogp(1p)log(1p)(4)

  这里,我们可以画出上面函数的图形,如下
在这里插入图片描述
  该图说明了更接近确定性的分布是如何具有较低的熵,而更接近均匀分布是如何具有较高的熵。可以看出,当 p = 0 p=0 p=0 1 1 1时, H ( p ) = 0 H(p)=0 H(p)=0,当 p = 1 2 p=\frac{1}{2} p=21 H ( p ) H(p) H(p)达到最大值。这是很有意义的,因为当 p = 0 p=0 p=0 1 1 1时,变量不再是随机的,从而不具有不确定度,然而当 p = 1 2 p=\frac{1}{2} p=21时,变量的不确定度达到最大,因此其熵值也最大。

  再举个简单的例子,直观的理解一下二值随机变量的熵。在一个盒子中放入两个小球,两球除了颜色以外,其他完全一样,现在要从盒子中任意取出一个小球。

  若放入的小球是一个白球,一个黑球,随机取出一个球,需要取到黑球,此时取到黑球和白球的可能性大小是一样的,概率各占 1 2 \frac{1}{2} 21,因此取到黑球的不确定度达到最大,也就是说熵值最大。

  若放入的小球是两个白球,那么随机取出一个球,取到白球的概率为1,取到黑球的概率为0,这相当于确定事件,其不具有不确定度(确定度最大),即其熵值为0。

  补充 :

  熵是随机变量 X X X的分布的泛函数,并不依赖于 X X X的实际取值,而仅依赖于其概率分布。

  举个例子,在一篇英文文章中,将所有字母重新调换,例如 a a a变成 b b b b b b变成 c c c,依次替换。从表面上看,整篇文章已经面目全非了,而从信息熵的角度看,其信息量却无变化,因为其字母虽然变化了,但分布并未变化。

3. 联合熵与条件熵

  在前面已经定义了单个随机变量的熵,现在,将定义推广到两个随机变量的情形。

  定义 对于服从联合分布为 p ( x , y ) p(x,y) p(x,y)的一对离散型随机变量 ( X , Y ) (X,Y) (X,Y),其联合熵 H ( X , Y ) H(X,Y) H(X,Y)(joint entropy)

(5) H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) H(X,Y)=-\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)logp(x,y)\tag{5} H(X,Y)=xX

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值