信息量、信息熵、条件熵、信息增益

信息量

有时候,当你知道某件事情的时候,你可能会说 “这有什么奇怪的啊”,比如,有同事告诉你“明天太阳从东边升起”,这就是说这件事情的信息量比较少。

又比如,当你知道明天彩票号码时,你就可能会说 “这个事是真的吗,太不可思议了”,就是说这件事情信息量比较大。

从上面的事情就是对一件事情携带信息量的直观感受,那么从数学角度是否可以衡量信息量呢?又或者说有没有某个公式可以衡量信息量呢?


我们来看看信息量的几个特点:

1.信息量必须是正数。也就是某个事件的发生带来的信息量是正的,而不是某个事件的发生会带走信息量。

2.信息量和事件发生的概率成反比。某个事件发生的概率越大,比如“太阳从东边升起”这个大概率事件,带来的信息量就比较少。而某些小概率事件带来的信息量应该比较大,比如明天的彩票号码、世界杯德国会拿冠军。

3.两个事件的信息量可以相加。事件a的发生带给你的信息量是x,事件b的发生带给你的信息量是y,那么事件a,b都发生带给你的信息量应该就是x+y。

满足1、2两点的公式有很多,I(X)=\frac{1}{P(X)}  或者 I(X) = -logP(X)

但是同时还要满足条件3的公式就是 I(X) = -logP(X),所以这就是信息量的公式。


信息熵

熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。

在信息学里,熵的概念就是用来度量随机事件的不确定性。


对于一般的不确定事件,我们怎样数学地刻画它的不确定程度呢?

设想有n个“基本事件”,各自出现的概率分别为p1, p2, …, pn,则它们构成一个样本空间,可以简记为所谓的“概率数组” (p1, p2, …, pn)。样本空间最简单的例子是我们上面提到的抛硬币游戏,它只有两个基本事件:抛硬币结果是“正面朝上”或“反面朝上”,其中每个事件的概率均为 1/2,其对应的样本空间为 (1/2, 1/2)。如果铸币厂别出心裁地将硬币做成两面不对称,使得抛硬币时正面朝上的概率增加到7/10,而反面朝上的概率减少到3/10,则对应的样本空间就是 (7/10, 3/10)。如果我们用符号 H(1/2, 1/2) 来表示第一个样本空间的不确定度,用数 H(7/10, 3/10) 代表第二个样本空间的不确定度,那么直觉马上告诉我们:数 H(1/2, 1/2) 大于数 H(7/10, 3/10),也就是前者比后者更加不确定。

更一般地,若用 H(p1, p2, …, pn) 记样本空间 (p1, p2, …, pn) 所对应的不确定度,运用同样的直觉分析,我们相信当所有的基本事件机会均等,即都有同样的概率1/n时,其不确定度最大。因而,不确定度函数H应该满足如下的基本不等式:对所有的加起来等于1的非负“概率数” p1, p2, …, pn,

(1) H(p1, p2, …, pn) ≤ H(1/n, 1/n, …, 1/n)。

 

如果我们不抛硬币,而像澳门赌场的常客那样掷骰子,每掷一次,小立方骰子的每一个面朝上的概率均为1/6。想一想就知道,某个指定面朝上的不确定度应大于玩硬币时正面或反面朝上的不确定度。将这个直观发现一般化,我们就有不确定度函数H 应该满足的单调性要求:

(2) H(1/n, 1/n, …, 1/n) 是自然数 n 的严格递增函数。

 

假设物理系赵教授、数学系钱教授和孙教授竞争理学院的一笔科研基金,他们每人申请成功的概率分别为1/2、1/3、1/6。院长为求公平,让每个系得此奖励的机会均等。若物理系拿到资助,就到了赵教授的名下。如数学系得到了它,钱教授有2/3的概率拿到,孙教授则有1/3的机会到手。通过分析“条件概率”,我们能得出不确定度 H(1/2, 1/3, 1/6) 的数值:这三个教授获得基金的不确定度,等于物理系或数学系拿到这笔基金的不确定度,加上数学系赢得该基金的概率与在数学系拿到基金的条件之下,钱教授或孙教授得到它的不确定度之乘积。换言之,H(1/2, 1/3, 1/6) = H(1/2, 1/2) + ½ H(2/3, 1/3)。推而广之,可以得出不确定度与条件概率有关的“加权和”性质:

(3) 如果一个不确定事件分解成几个持续事件,则原先事件的不确定度等于持续事件不确定度的加权和。

 

既然我们想用一个漂亮的数学公式来表达不确定度这一样本空间概率值函数,我们自然希望这个函数表达式和几乎所有的物理公式一样连续依赖于公式中的所有变元。这样,第四个条件就自然而然地加在了不确定度函数的头上:

(4) 对固定的自然数n,不确定度函数 H 是 (p1, p2, …, pn) 的一个连续函数。

 

任何在所有样本空间上都有定义的函数H,只要它满足以上的“三项基本原则 (2)(3)(4)”,就非如下的表达式莫属:

H(p1,p2,...,pn) = -C(p1lnp1+p2lnp2+...+pnlnpn)

 

其中符号 ln 代表以 e 为底的自然对数函数,C 可以是任意一个常数。并可证明,条件(1)自动满足(有兴趣的读者可用初等微积分证之)。当然,熵公式的证明需要的是一种创造的头脑思维、一手精湛的代数技巧、一个巧妙的极限思想。如果C取成玻尔兹曼常数,它就能和当年吉布斯在统计热力学中得到的“吉布斯熵”一模一样。香农取 C = 1,如此得到了非负函数:

H(p1,p2,...,pn) = -(p1lnp1+p2lnp2+...+pnlnpn)                  (H)

当公式(H)以2位对数的底,则公式变为:

H(p1,p2,...,pn) = -(p1logp1+p2logp2+...+pnlogpn)          (H)

按照冯 • 诺依曼的建议,该函数被定义为样本空间 (p1, p2, …, pn) 所对应的信息熵。现在,这个数被广称为“香农熵”,以纪念它的创造者、信息论之父——香农。


信息量与信息熵的关系

信息量公式    I(X) = -logP(X)

信息熵公式    H(p1,p2,...,pn) = -(p1logp1+p2logp2+...+pnlogpn)

从公式可以看出,随机事件所有事件的信息量的期望就是随机事件的信息熵

可以这么理解,信息熵表示随机事件的不确定性,而随机事件的某个可能的发生,会引入信息量,从而降低随机事件的不确定性。

举个例子,在世界杯32个球队中,假设其中欧洲国家16个,每个球队的夺冠概率相等,也就是1/32。那么最后夺冠国家这个随机事件的不确定性,也就是信息熵为:

H(最后夺冠国家) = - ((1/32)log(1/32) + (1/32)log(1/32) + ... + (1/32)log(1/32))=  -log(1/32) = 5

但是,当已知夺冠国家为欧洲国家时,这个已知事件(夺冠国家为欧洲国家)引入的信息量为:

I(夺冠国家为欧洲国家) = -log(16/32) = 1

这个时候,H(最后夺冠国家|夺冠国家为欧洲国家) = -log(1/16) = 4

所以,夺冠国家为欧洲国家这个事件引入的信息量1,降低了最后夺冠国家这个事件的不确定性,不确定性也就是信息熵,从5降低为4。


条件熵、信息增益

条件熵,就是随机事件在出现某个事件后的不确定性。

可以知道,当出现某个事件后,整个随机事件的不确定性比之前的不确定性降低了。

在上个世界杯的例子中,

随机事件X=最后夺冠国家的不确定性,也就是信息熵

H(X) = -log(1/32) = 5

当条件发生时,也就是Y=夺冠国家为欧洲国家这个事件发生时,X的不确定性

H(X|Y) = -log(1/16) = 4

其中H(X|Y)就是条件熵

I(Y) =1,既是事件Y的信息量,也可以理解为事件Y带来的信息增益,表示事件Y给事件X带来了多少信息量。

所以如下公式也存在 信息增益 = 新发生事件引入的信息量 = 信息熵 - 条件熵

 

 

 

转载请注明来源:https://blog.csdn.net/jiandabang/article/details/98690182

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值