自然语言处理——信息论基础

最新推荐文章于 2022-09-10 16:28:30 发布

胖虎干嘛了

最新推荐文章于 2022-09-10 16:28:30 发布

阅读量524

点赞数 2

文章标签：概率论机器学习自然语言处理

本文链接：https://blog.csdn.net/m0_53327618/article/details/120479895

版权

自然语言处理——信息论基础

1. 熵的定义
2. 信息论基础
3. 应用实例——词汇歧义消解
- 基于上下文分类的消歧方法
- - （1）基于贝叶斯分类器
  - （2）基于最大熵的消歧方法

1. 熵的定义

关于熵，又称为自信息，描述描述一个随机变量的不确定性的数量。随机变量的熵越大，不确定性越大，所表示含有的信息量也就越大，正确估值的可能性就越小。

1.1 熵

对于离散型随机变量X，其概率分布满足p(x) = P(X=x),x属于X，则X的熵H(X)为：
$\sum _{x\in X}{p(x)log_2 p(x)}$
熵的单位为二进制位比特（bit），我们约定0log0 = 0。

1.2 联合熵

如果X,Y是一对离散型的随机变量，X,Y~p(x,y),X,Y的联合熵H(X,Y)为：
$-\sum _{x \in X} \sum _{y \in Y} p(x,y)log_2 p(x,y)$
关于联合熵，可以理解为描述一对随机变量平均所需要的的信息量。

1.3 条件熵

在给定随机变量X的情况下，随机变量Y的条件熵定义为：
$\sum _{x \in X} p(x) H(Y|X=x)\\ \qquad \qquad \quad \ \ =\sum _{x \in X} {p(x)[-\sum _{y \in Y}{p(y|x)log_2p(y|x)}]}\\ \qquad \qquad \quad \ \ =-\sum _{x \in X}\sum _{y \in Y}p(x,y)log_2p(y|x)$

关于熵，联合熵，条件熵三者之间的关系，有连锁规则：
$H(Y|X)\\ \qquad \ \ \ \ \ \ \ =H(Y) + H(X|Y)$

值得一提的是，H(X|Y) 并不等于 H(Y|X)，因为在给定X（Y）的情况下，描述Y（X）所需要的信息量并不相等

2. 信息论基础

2.1 熵率

对于一条长度为n的信息，每一个字符or字的熵描述为熵率：
$H_{rate} =\frac 1 n H(X_{1n}) \\ \ \qquad \qquad\qquad\ \ \ \ \ = -\frac 1 n \sum _{x_{1n} }p(x_{1n})log_2 p(x_{1n})$
其中X_1n表示随机变量序列(X1, … Xn)
举例如下：
在这里插入图片描述

2.2 相对熵

relative entropy ，或Kullback - Leibler divergence，即KL距离
在这里插入图片描述
相对熵用于衡量两个随机分布的差距。当随机分布相同时，其相对熵为0；当两个随机分布的差别增加时，相对熵也随之增加。
如下图所示：

2.3 交叉熵

cross entropy
如果随机变量X~p(x),q(x)用于近似p(x)的概率分布，则随机变量X和模型q之间的交叉熵定义为：
在这里插入图片描述
交叉熵用于衡量估计模型与真实概率分布之间的差异。

在设计模型q时，我们的目的是使得交叉熵最小，从而使得模型最接近真实概率分布p(x)。

2.4 困惑度

在设计语言模型时，我们使用困惑度来代替交叉熵来衡量该语言模型的好坏，给定语言样本l₁ⁿ = l1…ln, L的困惑度PP_q定义为：
在这里插入图片描述
由此，语言模型的任务转换为寻找困惑度最小的模型。

2.5 互信息

在这里插入图片描述

互信息I（X ; Y）是在知道了Y的值以后X的不确定性的减少量，即Y的值透露了多少关于X的信息量。

关于互信息I（X ; Y），条件熵H(Y|X)，H(X|Y)与联合熵H(X,Y)的关系：
在这里插入图片描述

互信息的值越大，则表示两个事件之间的结合越紧密，越可能具有相关性，反之则断开的可能性更大。

一个例子：
在这里插入图片描述

2.6 双字耦合度

在这里插入图片描述

2.7 噪声信道模型

在这里插入图片描述

3. 应用实例——词汇歧义消解

在这里插入图片描述
每个词在表达不同的含义时其上下文往往不同，即不同的词义对应不同的上下文，我们如果将多义词的上下文进行区分，则词义应该也就能够区分了。

基于上下文分类的消歧方法

（1）基于贝叶斯分类器

在这里插入图片描述

（2）基于最大熵的消歧方法

在这里插入图片描述

感谢大连理工大学杨亮老师，该文内容图片部分均取自授课PPT

胖虎干嘛了

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
自然语言处理——信息论基础

自然语言处理——信息论基础1. 熵的定义1.1 熵1.2 联合熵1.3 条件熵2. 信息论基础2.1 熵率2.2 相对熵2.3 交叉熵2.4 困惑度2.5 互信息2.6 双字耦合度2.7 噪声信道模型3. 应用实例——词汇歧义消解基于上下文分类的消歧方法（1）基于贝叶斯分类器（2）基于最大熵的消歧方法1. 熵的定义关于熵，又称为自信息，描述描述一个随机变量的不确定性的数量。随机变量的熵越大，不确定性越大，所表示含有的信息量也就越大，正确估值的可能性就越小。1.1 熵对于离散型随机变量X，其概率分布
复制链接

扫一扫