读书笔记 --《数学之美》_信息的度量和作用

《数学之美 第二版》第六章

1、信息熵:信息的度量
对于任一个随机变量 X ,它的信息熵定义如下:

H(X)=xXP(x)logP(x)(1.1)

变量的不确定性越大,信息熵越大,所需要的信息量越大。

2、信息的作用:消除不确定性

U=UI(2.1)
其中 U 是不确定性,I是信息熵, U 是新的不确定性。公式说明,没有信息,任何公式或者数字游戏都无法排除不确定性。

3、条件熵
条件熵公式:

H(X|Y)=xXyYP(x,y)logP(x|y)(3.1)

公式说明,在了解Y的情况下,关于X的不确定性下降了。

4、互信息:相关性度量
互信息公式:

I(X;Y)=xXyYlogP(xy)P(x)P(y)(4.1)

I(X;Y)=H(X)H(X|Y)(4.2)

公式4.2表明,互信息的意义表示:X的不确定性在了解了Y之后的下降值。 H(X) 表示X的不确定性, H(X|Y) 表示X在了解了Y之后的不确定值。互信息是一个取值在0到 min(H(X)H(Y)) 之间的函数,当X和Y完全相关时,它的取值是1;当二者完全无关时,它的取值是0。

互信息被广泛用于度量一些语言现象的相关性。例如词语的二义性(或称歧义性)。

5、相对熵
相对熵也用来衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相关性,其定义如下:

KL(f(x)||g(x))=xXf(x)logf(x)g(x)(5.1)

从公式中得出结论:
(a.)对于两个完全相同的函数,它们的相对熵为零;
(b.)相对熵越大,两个函数的差异性越大;反之,相对熵越小,两个函数的差异性越小;
(c.)对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。

需要指出的是,相对熵不是对称的,即:

KL(f(x)||g(x))KL(g(x)||f(x))(5.2)

这样使用起来很不方便,为了让其对称,詹森和香农提出一种新的相对熵的计算方法,将公式5.1两边去平均,即:
JS(f(x)||g(x))=12[KL(f(x)||g(x))+KL(g(x)||f(x))](5.3)

附件:汉语信息熵和语言模型的复杂度 吴军&&王作英

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值