统计自然语言处理书籍阅读心得三

1.期望和方差:
期望表示为
方差表示为
2.熵:

熵的定义为:如果X是一个离散型随机变量,取值空间为R,其概率分布为 p(x)=P(X=x),x∈R。那么,X的熵H(X)定义为式(2-22):
熵又称为自信息(self-information),可以视为描述一个随机变量 的不确定性的数量。它表示信源X每发一个符号(不论发什么符号)所 提供的平均信息量[姜丹,2001]。一个随机变量的熵越大,它的不确 定性越大,那么,正确估计其值的可能性就越小。越不确定的随机变量 越需要大的信息量用以确定其值。

3.联合熵和条件熵:如果X,Y是一对离散型随机变量X,Y~p(x, y),X,Y的联合熵 (joint entropy)H(X,Y)定义为
联合熵实际上就是描述一对随机变量平均所需要的信息量。 给定随机变量X的情况下,随机变量Y的条件熵(conditional entropy)由式(2-24)定义:
因为p(x,y)=p(x|y)p(y),所以2-23的公式又可以拆分为:
我们称式(2-25)为熵的连锁规则(chain rule for entropy)
3.互信息:
根据熵的连锁规则,有 H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y),因此H(X)-H(X|Y)=H(Y)-H(Y|X)。这个差叫做X和Y的互信息(mutual information, MI),记作I(X;Y)。或者定义为:如果(X,Y)~p(x, y),则X,Y之间的互信息I(X; Y)=H(X)-H(X|Y)。
互信息和熵之间的关系可以用图2-1表示:
如果将定义中的H(X)和H(X|Y)展开,可得
实际上,互信息体现了两变量之间的依赖程度:如果I(X;Y) ≫0,表明X和Y是高度相关的;如果I(X;Y)=0,表明X和Y是相互 独立的;如果I(X;Y)≪0,表明Y的出现不但未使X的不确定性减 小,反而增大了X的不确定性,常是不利的。
同样,我们可以推导出条件互信息和互信息的连锁规则:
互信息在词汇聚类(word clustering)、汉语自动分词、词义消歧等 问题的研究中具有重要用途。
4.相对熵:
相对熵(relative entropy)又称Kullback-Leibler差异(KullbackLeibler divergence),或简称KL距离,是衡量相同事件空间里两个概率 分布相对差距的测度。两个概率分布p(x)和q(x)的相对熵定义为:
表示成期望值为:

6.交叉熵:
交叉熵的概念就是用来衡量估计模型与真实概率分布 之间差异情况的。如果一个随机变量X~p(x),q(x)为用于近似p(x)的概率分 布,那么,随机变量X和模型q之间的交叉熵(cross entropy)定义为
























  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值