nlp-LanguageModel

最新推荐文章于 2024-07-19 20:16:26 发布

_Moonquakes_

最新推荐文章于 2024-07-19 20:16:26 发布

阅读量665

点赞数 20

文章标签：自然语言处理

本文链接：https://blog.csdn.net/m0_63776870/article/details/139311523

版权

语言模型
（参考宗成庆的课程及文档）

1 基本概念

大规模语料库的出现为自然语言统计处理方法的实现提供了可能，统计方法的成功使用推动了语料库语言学的发展。基于大规模语料库和统计方法，可以：发现语言使用的普遍规律，进行机器学习、自动获取语言知识以及对未知语言现象进行推测。

如何计算一段文字（句子）的概率？以一段文字（句子）为单位统计相对频率？根据句子构成单位的概率计算联合概率？

语句s=w1w2…wm的先验概率：

$p(s)=p(w_1)\times p(w_2 | w_1) \times p(w_3 | w_1 w_2) \times \cdots \times p(w_m | w_1\cdots w_{m-1}) =\prod_{i=1}^{m} p(w_i | w_1\cdots w_{i-1})$

当i=1，p(w1|w0)=p(w1)

说明：（1）wi可以是字、词、短语或词类等等，称之为统计基元。通常以词代之。（2）wi的概率由w1,…,wi-1 决定，由特定的一组w1,…,wi-1 构成的一个序列，称为wi的历史。

问题：随着历史基元数量的增加，不同历史（路径）按照指数级增长。对于第i个统计单元，历史基元的个数为i-1，如果共有L个不同的基元，理论上每个单词都有可能出现在到i-1的每个位置，则i基元有 $L^{i-1}$ 中不同的历史情况。必须考虑在所有不同历史情况下产生第i个基元的概率。则模型中有 $L^{m}$ 个自由参数。（自有参数过多）

问题解决办法：设法减少历史基元的个数，将w1,w2,...,wi-1映射到等价类S(w1 w2 ... wi-1)，使等价类的数目远远小于原来不同历史基元的数目。则有： $p(w_i | w_1,...,w_{i-1})=p(w_i | S(w_1,...,w_{i-1}))$

如何划分等价类：将两个历史映射到同一个等价类，当仅当这两个历史中最近n-1个基元相同，即：

这种情况下的语言模型称为n元文法（n-gram）模型。

当n=1时，即出现在第i位上的基元wi独立于历史，一元文法也被写为uni-gram或monogram；
当n=2时，2-gram（bi-gram）被称为1阶马尔可夫链；
当n=3时，3-gram（bi-gram）被称为2阶马尔可夫链……

为了保证条件概率在i=1时有意义，同时为了保证句子内所有字符串的概率和为1.即 $\sum_{s} p(s)=1$ ，可以在句子首尾两端增加两个标志：<BOS>w1w2...wm<EOS>。不失一般性，对于n>2的n-gram，p(s)可以分解为： $p(s)=\prod_{i=1}^{m+1} p(w_i | w_{i-n+1}^{i-1})$

其中， $w_{i}^{j}$ 表示次序列 $w_i,...w_j$ ， $w_{i-n+1}$ 从 $w_0$ 开始， $w_0$ 为<BOS>， $w_{m+1}$ 为<EOS>。

举例：

应用-1：音字转换问题

给定拼音串：ta shi yan jiu sheng wu de

可能的汉字串：踏实研究生物的
他实验救生物的
他使烟酒生物的
他是研究生物的

计算公式：

其中，CString是可能的汉字串。

使用n元文法模型：通过考虑n个连续单元（字）之间的概率关系来计算整个串的概率。

如果汉字的总数为N，一元语法（样本空间为N，只选择使用频率最高的汉字），二元语法（样本空间为N^2,效果比一元语法明显提高）。估计对汉字而言四元语法效果会更好。

应用-2：汉语分词问题

给定的汉字串：他是研究生物的。

可能的切分结果：1. 他|是|研究生|物|的 2. 他|是|研究|生物|的

计算公式：

训练集是标注好的，所以必须后验转先验，即利用Seq来计算生成Text的概率。

2 参数估计

重要概念：

训练语料：用于建立模型，确定模型参数的已知语料。
最大似然估计：用相对频率计算概率的方法。

对于n-gram，参数 $p(w_i | w_{i-n+1}^{i-1})$ 可由最大似然求得： $p(w_i | w_{i-n+1}^{i-1}) =f(w_i | w_{i-n+1}^{i-1}) =\frac{c(w_{i-n+1}^{i})}{\sum_{w_i} c(w_{i-n+1}^{i})}$

其中， $\sum_{w_i} c(w_{i-n+1}^{i})$ 是历史串 $w_{i-n+1}^{i-1}$ 在给定预料中出现的次数，即 $c(w_{i-n+1}^{i-1})$ ，不管wi是什么。 $f(w_i | w_{i-n+1}^{i-1})$ 是在给定 $w_{i-n+1}^{i-1}$ 的条件下wi出现的相对频度，分子为 $w_{i-n+1}^{i-1}$ 和wi同时出现的次数。

例如，给定训练预料：

“John read Moby Dick” ，

“Mary read a different book”,

“She read a book by Cher”

根据2元文法求句子概率？

（先在句子首尾添加<BOS>和<EOS>再进行计算）

但也会发生下面的情况，某些词组并未出现，会导致概率为0。

数据匮乏（稀疏）引起零概率问题，如何解决？数据平滑

3 数据平滑

数据平滑的基本思想：调整最大似然估计的概率值，使零概率增值，使非零概率下调，“劫富济贫”，消除零概率，改进模型的整体正确率。

基本目标：测试样本的语言模型困惑度越小越好。

基本约束： $\sum_{w_i} p(w_i | w_1,w_2,...,w_{i-1})=1$

困惑度的定义：

对于一个平滑的n-gram，其概率为 $p(w_i | w_{i-n+1}^{i-1})$ ，可以计算句子的概率为： $p(s)=\prod_{i=1}^{m+1} p(w_i | w_{i-n+1}^{i-1})$

假定测试语料T有 $l_T$ 个句子构成，则整个测试集的概率为： $p(T)=\prod_{i=1}^{l_T} p(t_i)$

模型 $p(w_i | w_{i-n+1}^{i-1})$ 对于测试语料的交叉熵： $H_p(T)=-\frac{1}{W_T} log_2 p(T)$

其中， $W_T$ 是测试文本T是词数。模型p的困惑度 $PP_p(T) =2^{H_p(T)}$

数据平滑的方法：

(1)加1法：

基本思想：每一种情况出现的次数加1。例如对于uni-gram，设w1,w2,w3三个词，概率分别为1/3,0,2/3，加1后情况？2/6,1/6,3/6。
对于2-gram有：其中V是被考虑语料的词汇量（全部可能的基元数）。

（2）减值法/折扣法

基本思想：修改训练样本中事件的实际计数，使样本中（实际出现的）不同时间的概率之和小于1，剩余的概率分配给未见概率。

Good-Turing估计：

假设N是原来训练样本数据的大小，nr是在样本中正好出现r次的事件的数目（此处事件为n-gram），即出现1次的n-gram有n1个，2次的n-gram有n2个……

那么, $N=\sum_{r=1}^{\infty} n_r r=\sum_{r=0}^{\infty} (r+1) n_{r+1}$ 。

设：原先出现r次的n-gram在平滑后出现r*次，则 $N=\sum_{r=0}^{\infty}n_r r^*$ ，则 $\sum_{r=0}^{\infty} n_r r^* = \sum_{r=0}^{\infty} (r+1) n_{r+1}$ 。

所以， $r^*=(r+1) \frac{n_{r+1}}{n_r}$ 。

那么，Good-Turing估计在样本中出现r次的事件平滑后的概率为： $p_r=\frac{r^*}{N}$

实际应用中，一般直接用 $n_{r+1}$ 代替 $E(n_{r+1})$ ，用 $n_{r}$ 代替 $E(n_{r})$ 。这样，原训练样本中所有事件的概率之和为： $\sum_{r>0} n_r \times p_r = 1-\frac{n_1}{N}<1$

因此，有 $\frac{n_1}{N}$ 的剩余的概率量就可以均分给所有的未见事件（r=0).

Good-Turing估计适用于大词汇集产生的符合多项式分布的大量观察数据。

举例：

统计不同2-gram分别出现的次数

列出所有以read开始的2-gram概率

计算剩余没有出现过以read开始的2-gram的概率平均，并进行归一化

Back-off（后备/后退）方法，也称Katz后退法：

基本思想：当某一事件在样本中出现的频率大于阈值K（通常为1或0）时，运用最大似然估计的减值法来估计其概率，否则，使用低阶的，即(n-1)gram的概率替代n-gram概率，而这种替代需受归一化因子 $\alpha$ 的作用。

另一种解释：对于每个计数r>0的n元文法的出现次数减值，把因减值而节省下的剩余概率根据低阶的(n-1)gram分配给未见事件。

以2-gram为例，说明Katz平滑方法：

绝对减值法：

基本思想：从每个计数r中减去同样的量，剩余的概率量由未见事件均分。

设R为所有可能事件的数目（当事件为n-gram时，如果统计基元为词，且词汇集的大小为L，则R=L^n）。

那么样本出现了r次的事件概率可以有如下公式估计：

其中，n0为样本中未出现的事件的数目。b为减去的常量，b<=1。

b(R-n0)/N是由于减值而产生的剩余概率量。

b是自由参数，可以通过留存数据法求得b的上限为： $b\leqslant \frac{n_1}{n_1 + 2n_2}<1$

线性减值法：

基本思想：从每个计数r中减去与该计数成正比的量（减值函数为线性的），剩余概率量 $\alpha$ 被n0个未见事件均分。

自由参数 $\alpha$ 的优化值为： $\frac{n1}{N}$

绝对减值法产生的n-gram通常优于线性减值法。

四种减值法的比较：

Good-Turing法：对非零事件按公式削减出现的次数，节留出来的概率均分给0概率事件。
Katz后退法：对非零事件按Good-Turing法计算减值，节留出来的概率按低阶分布分给0概率事件。
绝对减值法：对非零事件无条件削减某一固定出现次数值，节留出来的概率均分给0概率事件。
线性减值法：对非零事件根据出现次数按比例削减次数值，节留出来的概率均分给0概率事件。

（3）删除插值法：

基本思想：用低阶语法估计高阶语法，即当3-gram的值不能从训练数据中准确估计时，用2-gram来代替，同样，当2-gram的值不能从训练语料中准确估计时，可以用1-gram的值来代替。

插值公式：

将训练语料分为两部分，即从原始语料中删除一部分作为留存数据。第一部分用于估计 $p'(w_3 | w_1 w_2),p'(w_3 | w_2),p'(w_3)$ 。第二部分用于计算 $\lambda_1,\lambda_2,\lambda_3$ ：使语言模型对留存数据的困惑度最小。

4 语言模型自适应

问题：

在训练语言模型时所采用的语料往往来自多种不同的领域，这些综合性语料难以反映不同领域之间在语言使用规律上的差异，而语言模型恰恰对于训练文本的类型、主题和风格等都十分敏感。
n 元语言模型的独立性假设的前提是一个文本中的当前词出现的概率只与它前面相邻的 n-1 个词相关，但这种假设在很多情况下是明显不成立的。

方法：