统计自然语言处理书籍阅读心得三

最新推荐文章于 2020-12-03 10:36:16 发布

Mr_wuliboy

最新推荐文章于 2020-12-03 10:36:16 发布

阅读量397

点赞数

本文链接：https://blog.csdn.net/Mr_wuliboy/article/details/79863279

版权

1.期望和方差：

期望表示为

方差表示为

2.熵：

熵的定义为：如果X是一个离散型随机变量，取值空间为R，其概率分布为 p（x）＝P（X＝x），x∈R。那么，X的熵H（X）定义为式（2-22）：

熵又称为自信息（self-information），可以视为描述一个随机变量的不确定性的数量。它表示信源X每发一个符号（不论发什么符号）所提供的平均信息量［姜丹，2001］。一个随机变量的熵越大，它的不确定性越大，那么，正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。

3.联合熵和条件熵：如果X，Y是一对离散型随机变量X，Y～p（x, y），X，Y的联合熵（joint entropy）H（X，Y）定义为

联合熵实际上就是描述一对随机变量平均所需要的信息量。给定随机变量X的情况下，随机变量Y的条件熵（conditional entropy）由式（2-24）定义：

因为p(x,y)=p(x|y)p(y),所以2-23的公式又可以拆分为：

我们称式（2-25）为熵的连锁规则（chain rule for entropy）
3.互信息：

互信息和熵之间的关系可以用图2-1表示：

如果将定义中的H（X）和H（X|Y）展开，可得

实际上，互信息体现了两变量之间的依赖程度：如果I（X；Y） ≫0，表明X和Y是高度相关的；如果I（X；Y）＝0，表明X和Y是相互独立的；如果I（X；Y）≪0，表明Y的出现不但未使X的不确定性减小，反而增大了X的不确定性，常是不利的。

同样，我们可以推导出条件互信息和互信息的连锁规则：

互信息在词汇聚类（word clustering）、汉语自动分词、词义消歧等问题的研究中具有重要用途。

4.相对熵：

相对熵（relative entropy）又称Kullback-Leibler差异（KullbackLeibler divergence），或简称KL距离，是衡量相同事件空间里两个概率分布相对差距的测度。两个概率分布p（x）和q（x）的相对熵定义为：

表示成期望值为：

6.交叉熵：

交叉熵的概念就是用来衡量估计模型与真实概率分布之间差异情况的。如果一个随机变量X～p（x），q（x）为用于近似p（x）的概率分布，那么，随机变量X和模型q之间的交叉熵（cross entropy）定义为

关注