1信息熵
一条信息的信息量与其不确定性有着直接的关系。信息量就等于不确定性的多少。
信息量的比特数和所有可能情况的对数函数log有关。
信息熵
H=-(p1logp1+…+pnlogpn) 单位比特
变量的不确定性越大,熵越大。
冗余度
2信息的作用
信息是消除系统不确定性的唯一办法。如果没有信息,任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理都是一个消除不确定性的过程。
网页搜索本质上也是利用信息消除不确定性的过程。
合理利用信息,非玩弄公式和机器学习算法,是做好搜索的关键。
条件熵:H(X|Y)=-求和p(x,y)logp(x|y)
H(X)>=H(X|Y)
信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关的信息。
3互信息
互信息两个随机事件相关性的度量。
I(X;Y)=求和P(x,y)log(P(x,y)/(P(x)*P(y)))
I(X;Y)=H(X)-H(X|Y)
所谓两个事件相关性的量化度量,就是在了解其中一个Y的前提下,对消除另一个X不确定性所提供的信息量。
4相对熵-交叉熵
信息熵和互信息是信息论的基础,信息论在自然语言处理中扮演着重要的角色。
相对熵也用来衡量相关性,只不过衡量概率分布的相似性,‘
1两个完全相同的函数,相对熵等于0;
2相对熵越大,两个函数差异越大,反之函数差异越小。
3不对称性。
5小结
熵,条件熵和相对熵与语言模型的关系密切。语言模型是为了用上下文预测当前的文字,模型越好,预测得越准确,那么当前文字的不确定性就小。用现有的系统来衡量语言模型既不直接也不方便,而且很难从错误率反过来定量度量语言模型。

信息熵可以用来直接衡量语言模型的好坏。高阶的语言模型应该使用条件熵。考虑从训练预料和真实应用的文本中得到的概率函数有偏差,需要使用相对熵。

语言模型复杂度,直接衡量语言模型的好坏。表示,在给定上下文的条件下,句子中每个位置平均可以选择的单词数量。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值