自然语言处理_02信息论基础

最新推荐文章于 2021-09-26 02:44:30 发布

学习炒菜的小芹菜

最新推荐文章于 2021-09-26 02:44:30 发布

阅读量504

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_41913844/article/details/104506231

版权

自然语言处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

导引

熵（entropy）
条件熵（conditional entropy）
连锁规则、联合熵
相对熵
交叉熵
困惑度(perplexity)
互信息(mutual information)
双字耦合度

熵（entropy）

如果X是离散型随即变脸，则X的熵为：
$H(X)=-\sum_{x \in X} p(x) \log _{2} p(x)$
约定 $0 l o g 0 = 0$ 。熵的单位为二进制比特bit。

熵又成为自信息self-information，表示信息源X每发送一个符号提供的平均信息量，也可视为信息元X不确定性的大小。

汉字的信息熵为9.71bit，汉语词的熵为11.46bit。规范文本中汉语词汇平均长度为2.5个汉字。

条件熵（conditional entropy）

给定随机变量X的条件下，随机变量Y的条件熵为：
$\begin{aligned} H(Y | X) &=\sum_{x \in X} p(x) H(Y | X=x) \\ &=\sum_{x \in X} p(x)\left[-\sum_{y \in Y} p(y | x) \log _{2} p(y | x)\right] \\ &=-\sum_{x \in X} \sum_{y \in Y} p(x, y) \log _{2} p(y | x) \end{aligned}$

连锁规则、联合熵

$\begin{aligned} H(X, Y) &=-\sum_{x \in X} \sum_{y \in Y} p(x, y) \log [p(x) p(y | x)] \\ &=-\sum_{x \in X} \sum_{y \in Y} p(x, y)[\log p(x)+\log p(y | x)] \\ &=-\sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x)-\sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(y | x) \\ &=-\sum_{x \in X} p(x) \log p(x)-\sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(y | x)\\ &=H(X)+H(Y | X) \end{aligned}$

在这里插入图片描述

例2-3：简单的波利尼西亚语(Polynesian)是一些随机的字符序列，其中部分字符出现的概率为：p: 1/8, t: 1/4, k: 1/8, a: 1/4, i: 1/8, u: 1/8。

那么，每个字符的熵为：
$H(P)=-\sum_{x \in X} p(x) \log _{2} p(x)=2.5bits$
这个结果表明，我们可以设计一种编码，传输一个字符平均只需要2.5个比特。由于比特位只能取整数，则
这种语言的字符分布并不是随机变量，但是，我们可以近似地将其看作随机变量。如果将字符按元音和辅音分成两类，元音随机变量 V={a, i, u}，辅音随机变量 C={p, t, k}。
假定所有的单词都由CV(consonant-vowel)音节序列组成，其边缘分布 P(C, ·) 和 P(·, V)如下表所示：

注意，这里的边缘概率是基于每个音节的，其值是基于每个字符的概率的两倍，因此，每个字符的概率值应该为相应边缘概率的1/2：
求联合熵可以有几种方法，以下我们采用连锁规则方法：

$\begin{aligned} H(C) &=-\sum_{c=p, t, k} p(c) \log p(c)=-2 \times \frac{1}{8} \times \log \frac{1}{8}-\frac{3}{4} \times \log \frac{3}{4} \\ &=\frac{9}{4}-\frac{3}{4} \log 3 \approx 1.061(\text { bits }) \end{aligned}$

$\begin{aligned}H(V | C) &=\sum_{c=p, k} p(C=c) H(V | C=c) \\ &=\frac{1}{8} \left(\frac{1}{2}, \frac{1}{2}, 0\right)+\frac{3}{4} H\left(\frac{1}{2}, \frac{1}{4}, \frac{1}{4}\right)+\frac{1}{8} H\left(\frac{1}{2}, 0, \frac{1}{2}\right)=\frac{11}{8}=1.375(\text { bits }) \end{aligned}$
根据连锁规则：

$\begin{aligned} H(C, V) &=H(C)+H(V | C) \\ &=\frac{9}{4}-\frac{3}{4} \log 3+\frac{11}{8} \approx 2.44 \end{aligned}$

一般地，对于一条长度为 n 的信息，每一个字符或字的熵为：
$H_{\mathrm{rate}}=\frac{1}{n} H\left(X_{1 n}\right)=-\frac{1}{n} \sum_{x_{1 n}} p\left(x_{1 n}\right) \log p\left(x_{1 n}\right)$
这个数值我们也称为熵率(entropy rate)。其中，变量 $X_{1n}$ 表示随机变量序列 ( $X_{1}$ , …, $X_{n}$ )， $x_{1n}$ =( $x_{1}$ , …, $x_{n}$ )表示随机变量的具体取值。有时将 $x_{1n}$ 写成： $x_1^n$ 。

相对熵

相对熵(relative entropy, 或称 Kullback-Leibler divergence, KL 距离) 。两个概率分布 p(x) 和 q(x) 的相对熵定义为：

$\| q)=\sum_{x \in X} p(x) \log \frac{p(x)}{q(x)}$

相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时，其相对熵为0。当两个随机分布的差别增加时，其相对熵也增加。

交叉熵

如果一个随机变量 X ~ p(x)，q(x)为用于近似 p(x) 的概率分布，那么，随机变量 X 和模型 q 之间的交叉熵(cross entropy) 定义为：
$\begin{aligned} H(X, q) &=H(X)+D(p \| q) \\ &=-\sum_{x} p(x) \log q(x) \end{aligned}$
交叉熵的概念用以衡量估计模型与真实概率分布之间的差异。

对于语言 L = (X) ~ p(x) 与其模型 q 的交叉熵定义为:
$q)=-\lim _{n \rightarrow \infty} \frac{1}{n} \sum_{x_{1}^{n}} p\left(x_{1}^{n}\right) \log q\left(x_{1}^{n}\right)$

信息论中有如下定理：
假定语言 L 是稳态(stationary)遍历性(ergodic)随机过程, 为L的样本，那么有：
$q)=-\lim _{n \rightarrow \infty} \frac{1}{n} \log q\left(x_{1}^{n}\right)$

由此，我们可以根据模型 q 和一个含有大量数据的 L 的样本来计算交叉熵。在设计模型 q 时，目的是使交叉熵最小，从而使模型最接近真实的概率分布 p(x)。

困惑度(perplexity)

在设计语言模型时，我们通常用困惑度来代替交叉熵衡量语言模型的好坏。给定语言L的样本 $l_1^n$ = $l_1$ , …, $l_n$ ，L 的困惑度 $PP_q$ 定义为:

语言模型设计的任务就是寻找困惑度最小的模型，使其最接近真实的语言。
$P_{q}=2^{H(L, q)} \approx 2^{-\frac{1}{n} \log q\left(l_{1}^{n}\right)}=\left[q\left(l_{1}^{n}\right)\right]^{-\frac{1}{n}}$

互信息(mutual information)

如果 (X, Y) ~ p(x, y)，X, Y 之间的互信息 I(X; Y)
$\begin{aligned} I(X ; Y) &=H(X)-H(X | Y) \\ &=-\sum_{x \in X} p(x) \log _{2} p(x)+\sum_{x \in X} \sum_{y \in Y} p(x, y) \log _{2} p(x | y) \\ &=\sum_{x \in X} \sum_{y \in Y} p(x, y)\left(\log _{2} p(x | y)-\log _{2} p(x)\right) \\ &=\sum_{x \in X} \sum_{y \in Y} p(x, y)\left(\log _{2} \frac{p(x | y)}{p(x)}\right) \end{aligned}$
互信息 I (X; Y) 是在知道了 Y 的值以后 X 的不确定性的减少量，即Y 的值透露了多少关于 X 的信息量。
在这里插入图片描述由于 $H (X ∣ X) = 0$ ，所以
$\begin{aligned} H(X)=H(X)-H(X | X) =I(X;X) \end{aligned}$
这一方面说明了为什么熵又称自信息，另一方面说明了两个完全相互依赖的变量之间的互信息并不是一个常量，而是取决于它们的熵。

例如：汉语分词问题在这里插入图片描述
利用互信息值估计两个汉字结合的强度：
$\begin{aligned} I(x;y) =\log _{2} \frac{p(x , y)}{p(x)p(y)} =\log _{2} \frac{p(y|x)}{p(y)} \end{aligned}$

互信息值越大，表示两个汉字之间的结合越紧密，越可能成词。反之，断开的可能性越大。当两个汉字 x 和 y 关联度较强时，其互信息值 I(x, y)>0；x 与y 关系弱时，I(x, y)≈0；而当I(x, y)<0 时，x 与 y 称为 “互补分布”。

双字耦合度

在汉语分词研究中，有学者用双字耦合度的概念代替互信息：设 ci，ci+1是两个连续出现的汉字，统计样本中ci， ci+1连续出现在一个词中的次数和连续出现的总次数，二者之比就是ci，ci+1的双字耦合度：
$\begin{aligned}Couple(c_i,c_{i+1})=\frac{N(c_i,c_{i+1})}{N(c_i,c_{i+1})+N(···c_i | c_{i+1}···)}\end{aligned}$

例如：“为人”出现5次，“为人民”出现 20次，那么， Couple(为, 人)＝0.2。

例如：“教务”以连续字符串形式在统计样本中共出现了16次，而“教”字出现了14 945次，“务”字出现了6 015次。(教, 务) 的互信息只有-0.5119。如果用互信息来判断该字对之间位置的切分，是要断开的。但实际上，字对 (教, 务) 在文本集中出现的16次全部都是“教务”、“教务长”、“教务处”这几个词。连续字对 (教, 务) 的双字耦合度是1。因此，在判断两个连续汉字之间的结合强度方面，双字耦合度要比互信息更合适一些。

说明：两个单个离散事件(xi, yj)之间的互信息I(xi, yj)通常称为点式互信息(point-wise mutual information) ，点式互信息可能为负值。两个随机变量(X, Y)之间的互信息 I(X, Y)称为平均互信息，平均互信息不可能为负值。

参考资料：中国科学院大学宗成庆老师《自然语言处理》课程

学习炒菜的小芹菜

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理_02信息论基础

熵（entropy）如果X是离散型随即变脸，则X的熵为：H(X)=−∑x∈Xp(x)log⁡2p(x)H(X)=-\sum_{x \in X} p(x) \log _{2} p(x)H(X)=−x∈X∑p(x)log2p(x)约定 0log0=00log0=00log0=0。熵的单位为二进制比特bit。熵又成为自信息self-information，表示信息源X每发送一个符号提供的平...
复制链接

扫一扫

专栏目录