语言模型

最新推荐文章于 2024-07-02 01:04:39 发布

HITcs_旋光

最新推荐文章于 2024-07-02 01:04:39 发布

阅读量568

点赞数

分类专栏：自然语言处理文章标签：自然语言处理自然语言计算机统计学

本文链接：https://blog.csdn.net/touwaerio2/article/details/45581983

版权

自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

自然语言处理(一)——语言模型

（本系列主要参考自Michael Collins, Columbia University. 博主非相关专业，纯兴趣，NLP入门中，写博乃为自我整理。性懒惰，弃latex。行文随意，乱造名词，难免错误，欢迎批评指正。转载请注明。）

1.1 模型引入——猜字游戏

试想这样一个猜字游戏，在给出前几个字之后让人猜出紧接着的下一个字是什么：

我就读于哈尔（）
中国航（）
我（）

这样一些例子中，有一些很容易猜得到，另一些就很难猜出了。然而以上过程都是人工去猜的，我们是否能够让计算机来猜测这些字呢？其实在当今的智能中文输入法中，单字联想功能在某些程度上已经很好地做到了这一点。为了实现这一目的，我们就必须要让计算机理解一些什么，例如中文语法，或者字与字之间的一些联系（就像在大多数情况下“哈尔”之后总是连接“滨”用以构成地名）。

早期的NLP科学家试图通过语言学的规则（例如文法分析和语义分析）来构建模型以解决猜词问题，但收效甚微。后来从语音识别中借鉴了统计学方法，取得了良好的效果。虽然这之间的历史也值得大谈特谈，但我们还是回到基于统计的语言模型建立的介绍上来。

首先，语言的形成离不开单字(word)，我们将所有单字组成一个集合，称为集合ν,可以想象，ν中元素的数量非常之大，但它毕竟是一个有限集。其次，定义一个句子(sentence)的概念如下：一个句子是ν中某些元素的一个有序排列，在句子的末尾总是以一个标识符（STOP）结束。我们不妨将之这样表示：

其中，xn总代表STOP。

所以在计算机中，“使用欢迎博客在发表中STOP”是一个合法的句子，即使它本身看起来并不那么像一个句子。想想看，这些句子构成的集合是什么样的？

我们定义这样由ν中元素构成的所有的句子的集合为ν+，对于ν+中的任意一个句子(x1,x2,…,xn)我们都有

换句话说，p(x1,x2,…,xn)构成了我们sentence集的概率分布。

这样，一个句子在自然语言中出现的可能性就可以定量地表示了。也就是说，一个句子的概率越高，则它是一个自然语言句子的可能性也就越大。这样，一开始提到的猜字游戏中，我们就可以找到这样一个字，使得构成这个句子的p最大。我们不妨来计算一个句子的概率。首先，我们把word抽象成随机变量(X1,X2,…,Xn)，所以上文中的p更严格地表示为：

对于一个句子x1,x2,…,xn，根据链式法则，我们总有

想想看，一方面由于ν的模（也就是ν中元素的数量）是如此巨大，另一方面每个sentence又包含如此多的word，这将导致上面的概率计算公式非常非常之长。计算一个句子已经如此之费力，何况要穷举出所有句子的概率！这样，我们就不得不找出一些近似的方法来实现这个想法。

1.2 马尔可夫(Markov)模型

幸运的是，马尔可夫模型为我们提供了这样一种方法。考虑到根据一个word之前的所有words来预测这个word是如此之繁琐，为此，我们断言，任何一个word的出现概率只与他的前n个词有关，从而大大减少计算复杂性。这背后的理论基础就是Markov模型。而n代表了Markov模型的阶数。

以二阶Markov模型为例，这时某个句子生成的概率

而这个概率的求取是相对容易实现的,由大数定律我们可以通过频率近似概率。

在这里，只要我们给定一个训练集，我们只需要统计其中(w|u,v)出现的次数c(u,v)和c(u,v,w)。由Bayes公式

我只要数数我的训练集中有多少(u,v,w),有多少(u,v),就可以算出q(w|u,v)。

但是请考虑这样一个问题，假如我们有10000个word，那么想要完全统计出所有的q(w|u,v)并不现实。因为任意的(u,v,w)的组合次数居然多达10^12次方。而且还有一个问题，并不是每个(w|u,v)都会在我们的训练集中出现，这将导致部分的c(u,v,w)为0，表明有相当大的一部分q(w|u,v)=0。甚至c(u,v)为0时，问题就更麻烦了。如果因为train set的问题而武断地说这些组合就是不存在的，恐怕有失公允。这样如何使这些组合的概率取到一个合适的值，即如何解决稀疏平滑性也是一个大问题。

把这些问题放到一边，我们首先来看看当我们训练出一个模型时（即我们得到了所有的q(w|u,v)时），如何定量地评价它的优劣。

1.3 如何评价一个模型的优劣？

一个好的模型，其必然揭示了成千上万的word中的某些潜在联系，也许，它通过概率对词与词的搭配做出了某些限制。换句话说，它使我们的word集的模变小了！这样，我们可以同构构建一个变量，来描述word集经过我们模型处理后的模的大小。

考虑我们有m个句子构成一个评价集用于评价模型，每个句子由n(i)个word构成

我们的评价函数同时基于这样一个朴素的思想：对于一个正常的句子，模型越好，这个句子的生成概率就越高。我们用函数L=

来构成评价函数。这个函数L()是将每个句子的生成概率求积，用log变换把求积变成求和，再对每个word求平均。

就是我们要构造的最终评价分数。容易证明，当q(w|u,v)采用平均分布时，perplexity = N，考虑到STOP不在我们的word集中,N是我们的word集的模+1.这表明，模型丝毫没有减小词的规模，因为平均分布的uvw序列本身并不带什么约束条件。

事实上我们还可以证明，perplexity还等于t的倒数，t是我们所有q(w|u,v)的几何平均。

1.4 如何进行稀疏平滑

终于到了解决历史遗留问题的时刻，对于上文提到的稀疏问题，我们如何使参数平滑化？通俗地讲，如何在有限的训练集情况下使所有的q(w|u,v)参数都不为0？因为我们实在没有资格说一个排列uvw不存在，只是单纯地因为它们不存在于我们的trainset中。

这里有两种常用的方法

线性插值法
折扣法

所谓线性插值，即将我们新的q(w|u,v)由三部分构成，分别是原先意义上的q(w|u,v)，q(w|v)和q(w)。为了避免混淆我们采用新的下标符号

我们新的q(w|u,v)就可以插值为：

其中，三个插值参数满足：

容易看出，只要w在我们的word集中，就可以保证每个uvw排列的q(w|u,v)都不为0。

现在我们只需要解决如何设置lambda1，lambda2和lambda3.

和上述评价一个模型的思想类似，我们通过一个参数设置集(development set)来训练这些参数。注意，它不同于我们的train set。我们需要这样三个参数使得我们的development set中sentence的概率最大。

想想看，我们能不能直接用train set去训练我们的lambdas参数？

由极大似然理论，将各个sentence的概率相乘取对数，得到

其中，三个lambda参数反映了我们对三个qML的设置权重。现在只要求lambda1，lambda2和lambda3使得L()取到最大值。

然而，这样得到的lambdas参数一定是最好的么？实际上，一方面我们的development set毕竟是有限的，另一方面我们的uvw是个性化的。直观地想，对于某一个uvw组合来说，如果train set中c(u,v)比较多，那么这个组合的lambda1也应该相应地大一些。如果c(v)比较多，那么该组合的lambda2也应该大。我们可以这样定义，