初探统计语言模型

最新推荐文章于 2023-10-05 16:16:05 发布

Vinicier

最新推荐文章于 2023-10-05 16:16:05 发布

阅读量643

点赞数

分类专栏：机器学习自然语言处理文章标签：自然语言处理 NLP 机器学习马尔科夫决策过程

本文链接：https://blog.csdn.net/u010976453/article/details/78701442

版权

机器学习同时被 2 个专栏收录

17 篇文章 9 订阅

订阅专栏

自然语言处理

1 篇文章 0 订阅

订阅专栏

本文介绍了统计语言模型在自然语言处理中的重要性，探讨了马尔科夫假设和N元模型，以及如何通过条件概率P(wi|wi−1)来解决概率计算问题。文章最后提出统计可靠性及零概率问题，预告将讨论平滑方法。

摘要由CSDN通过智能技术生成

1. 绪论

前面我们已经提到，20世纪50到70年代自然语言处理（NLP）的研究方法是通过句法分析 和 语义分析 这种基于规则的方式来处理NLP 问题，目的是想让计算机模拟像人一样思考的方式，让计算机理解自然语言。但是经过二十多年的探索研究表明，基于规则的方式处理极简单的句子还行，但是稍微复杂一些的数据复杂度呈指数级增大，基于规则的自然语言处理方式无法应用到实际问题中。

而自然语言从它产生开始，逐渐演变成一种上下文相关的信息表达和传递的方式，因此，让计算机去处理自然语言，一个基本的问题就是为自然语言这种上下文相关的特性建立数学模型。这个模型就是NLP 的基础，统计语言模型（Statistical Language Model）。

2. 统计模型

2.1 句子的数学模型表示

假设 $S$ 表示一个句子，由一连串特定顺序排序的词序列 $w_1,w_2,\cdots,w_n$ 组成，这里 $n$ 是指句子的长度。现在，我们想知道 $S$ 在文中出现的可能性，也就是求数学中的概率 $P(S)$ 。由于 $S=w_1,w_2,\cdots,w_n$ ，可得

$P (S) = P (w 1, w 2, \dots, w n)$ $P(S) = P(w_1,w_2,\cdots,w_n)$
利用 条件概率的公式， $S$ 这个序列出现的概率等于每个词出现的条件概率的乘积，于是有
$P (w 1, w 2, \dots, w n) = P (w 1) P (w 2 | w 1) P (w 3 | w 1, w 2) \dots P (w n | w 1, w 2, \dots, w n - 1)$ $P(w_1,w_2,\cdots,w_n)= P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)\cdots P(w_n|w_1,w_2,\cdots,w_{n-1})$
其中， $P(w_1)$ 表示第一个词 $w_1$ 出现的概率； $P(w_2|w_1)$ 是在已知第一个词的前提下，第二个词出现的概率；依次类推。不难看出，词 $w_n$ 出现的概率取决于它前面的所有词。

上式中，前两项还较容易算，后面项涉及的变量太多，无法估算。该如何处理呢？

2.2 马尔科夫假设与 $N$ 元模型

19世纪到20世纪初，俄国数学家马尔科夫（Andrey Markov）提出了一个偷懒但十分有效的方法，即每次遇到这种情况时，就假设任意一个词 $w_i$ 出现的概率只与它的前面的词 $w_{i-1}$ 有关，该假设就是马尔科夫假设。于是上面的问题就变得很简单了， $S$ 出现的概率就可表示为

$P (w 1, w 2, \dots, w n) = P (w 1) P (w 2 | w 1) P (w 3 | w 2) \dots P (w i | w i - 1) \dots P (w n | w n - 1)$ $P(w_1,w_2,\cdots,w_n)= P(w_1)P(w_2|w_1)P(w_3|w_2)\cdots P(w_i|w_{i-1}) \cdots P(w_n|w_{n-1})$
该式对应的就是统计语言中的二元模型（Bigram Model）。更高级一点，如果假设一个词，由它前面的 $N-1$ 个词决定，与更前面的词无关，即
$P (w i | w 1, w 2, \dots, w i - 1) = P (w i | w i - N + 1, w i - N + 2, \dots, w i - 1)$ $P(w_i|w_1,w_2,\cdots,w_{i-1}) = P(w_i|w_{i-N+1}, w_{i-N+2},\cdots, w_{i-1})$
这种假设称为 $N-1$ 阶马尔科夫假设，对应的模型也被称为 $N$ 元模型（N-gram Model）。实际应用中用的最多的就是 $N=3$ 的三元模型，更高阶的就很少用了。

2.4 条件概率 $P(w_i|w_{i-1})$

那么，如何估计条件概率 $P(w_i|w_{i-1})$ 呢？根据它的定义有

$P (w i | w i - 1) = P ( w i - 1 , w i ) P ( w i - 1 )$ $P(w_i|w_{i-1}) = \frac{P(w_{i-1},w_i)}{P(w_{i-1})}$
通过估计联合概率 $P(w_{i-1},w_i)$ 和边缘概率 $P(w_{i-1})$ ，问题就变得很简单。

假设现有一语料库（Corpus），只要数一数 $w_{i-1}$ ， $w_i$ 这对词在语料库中前后相邻出现多少次 $C(w_{i-1},w_i)$ ，以及 $w_{i-1}$ 本身才同样的文本中出现了多少次 $C(w_{i-1})$ ，然后用这两个数分别除以语料库的大小 $C$ ，即可得到这些词与二元组的相对频度：

$f (w i - 1, w i) = C ( w i - 1 , w i ) C$ $f(w_{i-1},w_i) = \frac{C(w_{i-1},w_i)}{C}$
和

$f (w i - 1) = C ( w i - 1 ) C$ $f(w_{i-1}) = \frac{C(w_{i-1})}{C}$

然后由大数定理可知，只要统计量足够，相对频度就等于概率，即

$P (w i - 1, w i) \approx C ( w i - 1 , w i ) C$ $P(w_{i-1},w_i) \approx \frac{C(w_{i-1},w_i)}{C}$
和
$P (w i - 1) \approx C ( w i - 1 ) C$ $P(w_{i-1}) \approx \frac{C(w_{i-1})}{C}$

因此，可得条件概率

$P (w i | w i - 1) = P ( w i - 1 , w i ) P ( w i - 1 ) \approx C ( w i - 1 , w i ) C ( w i - 1 )$ $P(w_i|w_{i-1}) = \frac{P(w_{i-1},w_i)}{P(w_{i-1})} \approx \frac{C(w_{i-1},w_i)}{C(w_{i-1})}$

利用这一简单的数学模型，NLP 中的机器翻译，语音识别等问题就都可以解决了。

3. 后续

在上一节中提到的建模和模型训练方法，似乎非常简单，但是，如果在训练中同时出现的次数 $C(w_{i-1},w_i)$ 怎么办。是否意味着条件概率 $P(w_i|w_{i-1})=0$ ？反之，如果 $C(w_{i-1},w_i)$ 和 $C(w_{i-1})$ 都只出现了一次，能否得出 $P(w_i|w_{i-1})=1$ 这样非常绝对的结论？

这就涉及到统计的可靠性问题了，在下篇文章中，我们将介绍零概率问题和平滑方法。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

Vinicier

关注关注

0
点赞

踩

1

收藏

觉得还不错? 一键收藏

0
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

揭秘AI语言模型背后的魔法：开发框架初探

程序员光剑

05-03 265

文本摘要的目标是从长文本中抽取出简洁的摘要。抽取式摘要可以使用BERT等模型进行关键句子抽取,而生成式摘要则需要生成模型如GPT来生成新的。

泛统计理论初探——初探GPT模型

喷火龙与水箭龟的博客

12-31 870

神经网络学习-初探GPT模型思路初探GPT思路     在之前的文章我们聊过transformer机制和bert模型的思路，其实transformer是一种理论的框架模型，而bert则是用了transformer模型的编码层构建得出的一个近似工程的模型，今天所介绍的GPT模型的全称是Generative Pre-Training，中文名字是生成式预训练模型，这种模型和bert模型最大的区别就是它使用的是transformer模型的解码层，也就是decoder部分的框

参与评论您还未登录，请先登录后发表或查看评论

统计语言模型

zakexu的专栏

05-09 2085

（一）简介 1.词向量传统表示：（1）One-hot Representation；（2）存在稀疏以及维度灾难的问题；（3）根据词向量无法判断词之间的相关性； 2.词向量近期表示：（1）Distributed representation；Word Representation；Word Embedding；（2）低维实数向量；（3）词义相似可以用空间距离来表示； 3

统计语言模型（Statistical Language Model）

weixin_30510153的博客

11-28 389

自然语言处理的一个基本问题就是为其上下文相关的特性建立数学模型，即统计语言模型（Statistical Language Model），它是自然语言处理的基础。 1 用数学的方法描述语言规律假定S表示某个有意义的句子，由一连串特定顺序排列的词ω1，ω2，...，ωn组成，这里n是句子的长度。现在，我们想知道S在文本中出现的可能性，即S的概率P(S)，则P(S)=P(ω1，ω2，...，ωn)...

R语言初探之存储模型/报童问题

11-18 4807

library(lattice) data = read.table("C:\\Users\\i077073\\Desktop\\data.csv", sep = ","); values = as.numeric(unlist(data[1])); probs = as.numeric(unlist(data[2])); inventory = function(s,S){ x=100;

泛统计理论初探——文本挖掘中的主题模型

喷火龙与水箭龟的博客

05-16 816

数据挖掘-初探主题模型文本挖掘之主题模型本次的文章中将介绍文本挖掘中最常见的模型，即主题模型。主题模型又称之为LDA，即Latent Dirichlet Allocation，英文直译是潜在狄利克雷分布。该模型是通过构造文章/主题以及主题/单词这两种分布组成整个主题模型的，而构造的方式是通过构造各个单词和主题的极大似然函数、构造各个主题和文章的极大似然函数这两种分布，最后通过主题去区分每篇文章，从而达到了文本分类的效果。 LDA模型和之前文章讨论过的词袋模型的思路很像，词袋模型是把词语和文章通过出现频率

泛统计理论初探——模型泛化能力增强技巧

喷火龙与水箭龟的博客

07-04 1386

数据挖掘-机器学习模型泛化增强技巧 机器学习模型泛化能力增强技巧简介    在之前的文章中，我们已经介绍了三种提高模型泛化能力的方法，即前一篇文章介绍的L1正则化、L2正则化、DropOut方法。在本文中，我们将会从数据角度、模型训练角度、策略角度进行提高模型泛化能力的方法介绍，尝试在处理问题的不同阶段使用技巧提升模型的泛化能力。本文主要介绍数据增强、参数共享、早停处理、多任务学习这几种技巧，下面分别进行介绍。    首先介绍数据增强方法，该方法其

统计语言模型 -- Statistical Language Model

m0_38024592的博客

12-25 387

高阶语言模型：假定文本中的每个词Wi和前面N-1个词有关，而与更前面的词无关，这样当前词Wi的概率只取决于前面N-1个词 P(Wi-n+1，Wi-n+2，…，Wi-1)，因此 P(Wi | W1，W2，…，Wi-1) = P(Wi | Wi-n+1，Wi-n+2，…，Wi-1) 这种假设被称为N-1阶马儿可夫假设，对应的语言模型成为N元模型...

统计语言模型（一）

最新发布

m0_69180901的博客

10-05 193

自然语言处理，统计语言模型

统计语言模型（下）

Lenskit

05-05 668

接上篇。     P(wi|wi-1)就是这两个数的比值，再考虑到上面的两个概率有相同的分母（语料库大小），可以约掉，所以P(wi|wi-1)(wi-1,wi)/(wi-1)。     现在你是否感受到数学的美妙？它把一些复杂的问题变得如此简单。似乎难以相信，这么简单的数学模型能解决复杂的语音识别、机器翻译等问题，而很复杂的文法规则和人工智能却做不到。其实很多语音学家也质疑过这种方法的有效性，

语言模型(一) 统计语言模型

huang.xiao的专栏

12-17 1146

1. 什么是语言模型标准定义：对于语言序列w1,w2,⋯ ,wnw_{1},w_{2},\cdots,w_{n}w1,w2,⋯,wn，语言模型(Language Model)就是计算该序列的概率，即P(w1,w2,w3,⋯ ,wn)P(w_{1},w_{2},w_{3},\cdots,w_{n})P(w1,w2,w3,⋯,wn)。从机器学习的角度来看：语言模型是对语句的概率分布的建模。通俗解释：判断一个语言序列是否是正常语句，即是否是人话，例如P(I am Ligh

笔记(总结)-统计语言模型

ZSY的大后台

07-09 675

在自然语言处理的相关问题中，如何表示句子是建模分析的关键。与传统的图像、音频等天然可转化为计算机编码的元素不同，自然语言需要经过复杂编码才能被计算机识别。并且，这种编码是机械式的简单排列，设计初衷是为了解决自然语言的存储问题，编码本身不带有任何语言层面的信息。因此，直接使用自然语言的编码对文字进行转换而后建模是不可靠的，过程中丢失了太多的信息。语言模型正是解决了这样的问题。语言模型有很多种...

数学之美：统计语言模型

心之所向

08-26 830

一个有意义的句子是由一定顺序的词组成，则一个句子出现的可能性可以使用如下表示：这是典型的条件概率理论，也就是说当我们知道第一词w1后，要预测下一个w2的概率时是在基于已知词w1的情况下预测的。但是当一个句子很长时，越是后面的词，其条件概率的类型越多，难以估算。因为在这个词前面有n-1个词，这也就是说P(wn|w1,w2…wn-1)的种类由于每个wi都有字典长度个数L的可能性，导致变量空间是...