统计自然语言处理---信息论基础

最新推荐文章于 2022-06-06 16:30:42 发布

李亚超

最新推荐文章于 2022-06-06 16:30:42 发布

阅读量3.1k

点赞数

分类专栏： NLP 文章标签：自然语言处理语言文档算法 2010

本文链接：https://blog.csdn.net/harry_lyc/article/details/5992837

版权

本文介绍了信息论的基础概念，如熵、联合熵、条件熵、互信息和相对熵，以及它们在统计自然语言处理中的应用，如解决词义二义性问题和在机器翻译、信息检索中的作用。还讨论了噪音信道模型和HMM模型在解码问题中的应用。

摘要由CSDN通过智能技术生成

统计自然语言处理---信息论基础

李亚超 2010-10-29

1 简介

信息论产生于20世纪，最早由Shannon(Claude Shannon)提出。那时Shannon在研究如何在由噪音的通信链路上尽量提高数据的传输量，为了能够从理论上求出最大的数据压缩律，Shannon提出了熵(Entropy)的概念。注意这个概念很重要，是信息论的基本理论，以后会多次用到。这里我要介绍的包括熵(Entropy)，联合熵和交叉熵(Joint entropy and conditional entropy)，互信息(Mutual information )，噪声信道模型(The noisy channel model)，相对熵(Relative entropy or Kullback-Leibler divergence)。这些信息论上的理论在用到统计自然语言处理时，会产生意想不到效果。

2 信息论

2.1 熵(Entropy)

熵(自信息,self-information)是度量信息量的一种方法。一条信息的信息量大小和他的不确定性有直接的关系，比如我们要搞清楚一个不一无所知的问题需要大量的信息，相反如果要我们已经对一件事有所了解，那么就不需要太多的信息就可以把它搞清楚。从这个意义上说熵就是平均不确定性的多少。

熵的大小用bits来衡量，这里我们用得到数学公式log是以2为基底，并且定义和log0=0。

离散型随机变量X包含一系列值{x1,x2,...,xn}的熵H为： H(X) =E(I (X) ) 。 E是期望值， I 是X的信息内容，I(X)是自我随机变量(I(X) is itself a random variable)，如果p表示x的概率的质量函数( probability mass function)，那么熵可以写为：