使用信息熵来度量信息,单位bit。
信息量度量的理解:
例子:马上要举行世界杯赛了,大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问:“冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?”假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。 这样只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。对于信息量的度量,香农不是用钱,而是用 “比特”(bit)。
假设有32个足球队,每个足球队夺冠的概率是pi,那么“哪个球队是世界冠军”的信息量是:
对于一个随机变量,熵的定义是:
互信息:对两个随机事件相关性的量化度量。
在机器翻译中,可以使用互信息来解决具有二义性的词的翻译。例如:bush既可以翻译为bush总统,又可以翻译为灌木丛。在不同的语境中如何翻译:在大量文本中,找到和总统bush一起出现的互信息最大的词:美国、国会、总统等,再找到和灌木丛一起出现的互信息最大的词:土壤、植物等。在翻译时,看上下文哪类的词较多,就翻译为哪个。
相对熵(交叉熵):
衡量2个正函数是否相似,在自然语言处理中,可以使用交叉熵衡量2个常用词是否同义,两篇文章的内容是否相近。