数学之美第六章——信息的度量和作用

最新推荐文章于 2024-06-26 10:34:35 发布

风一定会来

最新推荐文章于 2024-06-26 10:34:35 发布

阅读量942

点赞数

文章标签：机器学习自然语言处理

本文链接：https://blog.csdn.net/QM19900420/article/details/125958136

版权

信息熵

提出者
- 1948年，香农在他著名的论文“通信的数学原理”中提出了“信息嫡”
用途
- 解决了信息的度量问题，并且量化出信息的作用。
信息量
- 一条信息的信息量与其不确定性有着直接的关系。
  - 比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果已对某件事了解较多，则不需要太多的信息就能把它搞清楚。所以，从这个角度来看，可以认为，信息量就等于不确定性的多少。
- 单位：比特
- 定义：
  - 信息量的比特数和所有可能情况的对数函数log有关。( log32 = 5， log64 = 6。)
  - 变量的不确定性越大，嫡也就越大，要把它搞清楚,所需信息量也就越大。
  - 例1：
    - 哪支球队是冠军
      - 等概率情况下
        可以把球队编上号，从1到32，然后提问:“冠军球队在1—16号中吗?”假如他告诉我猜对了，我会接着问:“冠军在1—8号中吗?”假如他告诉我猜错了，我自然知道冠军队在9—16号中。这样只需要5次，我就能知道哪支球队是冠军。所以，谁是世界杯冠军这条消息的信息量只值5元钱。即5比特
      - 不等概率情况下
        有些读者会发现实际上可能不需要猜5次就能猜出谁是冠军，因为像西班牙、巴西、德国、意大利这样的球队夺得冠军的可能性比日本、南非、韩国等球队大得多。因此，第一次猜测时不需要把32支球队等分成两个组，而可以把少数几支最可能的球队分成一组，把其他球队分成另一组。然后猜冠军球队是否在那几支热门队中。重复这样的过程，根据夺冠概率对余下候选球队分组，直至找到冠军队。这样，也许3次或4次就猜出结果。因此，当每支球队夺冠的可能性（概率）不等时，“谁是世界杯冠军”的信息量比5比特少。
      - 准确信息量
  - 例2：
    - 一本50万字的中文书平均有多少信息量。
      - 信息熵
        假如每个字等概率
        那么大约需要13比特（即13位二进制数）表示一个汉字。
        
        不考虑上下文的相关性，而只考虑每个汉字的独立概率
        每个汉字的信息嫡大约也只有8—9比特
        
        考虑上下文相关性
        每个汉字的信息嫡就只有5比特左右
        一本50万字的中文书，信息量大约是250万比特
      - 冗余度
        压缩文件的大小
        采用较好的算法进行压缩，整本书可以存成一个320KB的文件。
        
        如果直接用两字节的国标编码存储这本书，大约需要1MB大小，是压缩文件的3倍。
        
        如果一本书重复的内容很多，它的信息量就小，冗余度就大。
        
        不同语言的冗余度差别很大，而汉语在所有语言中冗余度是相对小的。

信息的作用

消除系统的不确定性
信息是消除系统不确定性的唯一办法（在没有获得任何信息前，一个系统就像是一个黑盒子，引入信息，就可以了解黑盒子系统的内部结构)
- 一个事物内部会存有随机性，也就是不确定性，假定为U，信息为I
  - I >U
    - 从外部消除这个不确定性
  - I<U
    - 这些信息可以消除一部分不确定性,也就是说新的不确定性
  - 如果没有信息﹐任何公式或者数字的游戏都无法排除不确定性。

条件熵

知道的信息越多，随机事件的不确定性就越小
也指已知某个变量之后，变量X的嫡
- X的熵
- 定义在Y的条件下的X的熵
- 定义在Y，Z条件下的X的熵

互信息

提出者
- 香农
概念
- 两个随机事件“相关性”的量化度量
定义
- 假定有两个随机事件X和Y
  - 随机事件X的不确定性或者说嫡H(X)在知道随机事件Y条件下的不确定性，或者说条件嫡H(X|Y)之间的差异，即
  - 互信息是一个取值在0到min(H(X)，H(Y))之间的函数
    - 当X和Y完全相关时，它的取值是H(X)，同时H(X)=H(Y)
    - 当二者完全无关时，它的取值是0。
应用
- 度量一些语言现象的相关性
- 机器翻译中词义的二义性
  - 例如"bush"这个词既可被翻译为灌木丛，也可以被翻译为美国总统布什。利用互信息的方法是,分别从大量文本中找与“布什"和“灌木丛"各自互信息最大的词语,在翻译时再看上下文哪一类的相关词更多，即可确认翻译为哪种意思。
- 迁移学习
  - 强化学习迁移的一个阻碍是，两个不同任务之间的动作空间、状态空间等不一致。通过互信息可以对不同任务的空间进行转化，达到迁移强化学习的目的

相对熵

用来衡量相关性，但和变量的互信息不同，它用来衡量两个取值为正数的函数的相似性
定义
- 相对熵不对称
  - 为了让它对称，詹森和香农提出一种新的相对嫡的计算方法，将上面的不等式两边取平均，即
结论
- 1.对于两个完全相同的函数，它们的相对嫡等于零。
- 2．相对嫡越大，两个函数差异越大;反之，相对嫡越小，两个函数差异越小。
- 3．对于概率分布或者概率密度函数，如果取值均大于零，相对嫡可以度量两个随机分布的差异性。
应用
- 信号处理
  - 如果两个随机信号，它们的相对嫡越小，说明这两个信号越接近，否则信号的差异越大。
- 衡量两段信息的相似程度
  - 比如说如果一篇文章是照抄或者改写另一篇，那么这两篇文章中词频分布的相对嫡就非常小，接近于零。
  - 在Google的自动问答系统中，我们采用了上面的詹森–香农度量来衡量两个答案的相似性。
- 衡量两个常用词（在语法和语义上）在不同文本中的概率分布，看它们是否同义
- 词频率–逆向文档频率