学习笔记（3）——二元语法-CSDN博客

本文链接：https://blog.csdn.net/strivequeen/article/details/108257351

语言模型
马尔可夫链与二元语法
n元语法
数据稀疏与平滑策略
二元语法与词典分词比较

语言模型

语言模型 指的是对语言现象的数学抽象。即给定一个句子 w，语言模型就是计算句子的出现概率 p(w) 的模型，而统计的对象就是人工标注而成的语料库。

数据稀疏 ：p(w) 的计算非常难，句子数量无穷无尽。即便是大型语料库，也只能“枚举”有限的数百万个句子。实际遇到的句子大部分都在语料库之外，意味着它们的概率都被当作0。

句子一般不重复，但单词是在重复使用，所以把句子表示成单词列表： $w_{1} w_{2} \cdots w_{k}$ ，每个 $w_{t}, t \in[1, k]$ 都是一个单词，定义语言模型：

$\begin{aligned} p(\boldsymbol{w}) &=p\left(w_{1} w_{2} \cdots w_{k}\right) \\ &=p\left(w_{1} \mid w_{0}\right) \times p\left(w_{2} \mid w_{0} w_{1}\right) \times \cdots \times p\left(w_{k+1} \mid w_{0} w_{1} w_{2} \ldots w_{k}\right) \\ &=\prod_{t=1}^{k+1} p\left(w_{t} \mid w_{0} w_{1} \cdots w_{t-1}\right) \end{aligned}$

其中， $w_{0}=B O S$ (Begin Of Sentence, 有时用 s),
$w_{k+1}=E O S($ EndOfSentence $,$ 有时也用 $< / s >)$

随句子长度增大，语言模型会遇到如下两个问题:

数据稀疏 指的是长度越大的句子越难出现，可能统计不到频次，即 $p\left(w_{k} \mid w_{1} w_{2} \ldots w_{k-1}\right)=0$ 。
计算代价大 k 越大，需存储的 p 就越多，即便用字典树索引，依然代价不菲。

马尔可夫链与二元语法

为解决以上两个问题，需要使用马尔可夫假设来简化语言模型。
马尔可夫链 ：给定时间线上有一串事件顺序发生，假设每个事件的发生概率只取决于前一个事件，那么这串事件构成的因果链被称作马尔可夫链。

在语言模型中，第 t 个事件指的是 Wt 作为第 t 个单词出现。即每个单词出现的概率只取决于前一个单词：

$p\left(w_{t} \mid w_{0} w_{1} \ldots w_{t-1}\right)=p\left(w_{t} \mid\right.w_{t-1})$

此时的语言模型称为二元语法模型 ：

$\begin{aligned} p(\boldsymbol{w}) &=p\left(w_{1} w_{2} \cdots w_{k}\right) \\ &=p\left(w_{1} \mid w_{0}\right) \times p\left(w_{2} \mid w_{1}\right) \times \cdots \times p\left(w_{k+1} \mid w_{k}\right) \\ &=\prod_{t=1}^{k+1} p\left(w_{t} \mid w_{t-1}\right) \end{aligned}$