信息论的几个概念—读数学之美

             使用信息熵来度量信息,单位bit。

信息量度量的理解:

例子:马上要举行世界杯赛了,大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问:“冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?”假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。 这样只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。对于信息量的度量,香农不是用钱,而是用 “比特”(bit)。

  • 假设有32个足球队,每个足球队夺冠的概率是pi,那么“哪个球队是世界冠军”的信息量是:

    对于一个随机变量,熵的定义是:

    互信息:对两个随机事件相关性的量化度量。

    在机器翻译中,可以使用互信息来解决具有二义性的词的翻译。例如:bush既可以翻译为bush总统,又可以翻译为灌木丛。在不同的语境中如何翻译:在大量文本中,找到和总统bush一起出现的互信息最大的词:美国、国会、总统等,再找到和灌木丛一起出现的互信息最大的词:土壤、植物等。在翻译时,看上下文哪类的词较多,就翻译为哪个。

    相对熵(交叉熵):

    衡量2个正函数是否相似,在自然语言处理中,可以使用交叉熵衡量2个常用词是否同义,两篇文章的内容是否相近。

     

     

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值