NLP基础：n-gram语言模型和神经网络语言模型

n-gram与神经网络语言模型详解

最新推荐文章于 2025-07-12 21:56:38 发布

VariableX

最新推荐文章于 2025-07-12 21:56:38 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理基础文章标签： nlp 神经网络算法

本文链接：https://blog.csdn.net/VariableX/article/details/106491336

本文介绍了n-gram语言模型及其平滑技术，包括Bi-Gram和Tri-Gram，然后详细讲解了神经网络语言模型（NNLM）的基本思想、结构和优缺点，并探讨了语言模型的评价指标—困惑度。

语言模型是自然语言处理中的重要技术，假设一段长度为

T

的文本中的词依次为

w_1, w_2, \ldots, w_T

，语言模型将计算该序列的概率：

P(w_1, w_2, \ldots, w_T).

语言模型有助于提升自然语言处理任务的效果，例如在语音识别任务中，给定一段“厨房里食油用完了”的语音，有可能会输出“厨房里食油用完了”和“厨房里石油用完了”这两个读音完全一样的文本序列。合适的语言模型能够判断出前者的概率大于后者的概率，于是可以得到正确的“厨房里食油用完了”这个文本序列。

语言模型的计算

我们可以把文本看作一段离散的时间序列 $w_1, w_2, \ldots, w_T$ ，假设每个词是按时间先后顺序依次生成的，那么在离散的时间序列中， $w_t$ （ $\leq t \leq T$ ）可看作在时间步（time step） $t$ 的输出或标签。于是，对于一个句子而言，有：
$P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T P(w_t \mid w_1, \ldots, w_{t-1}).$
例如，一段含有4个词的文本序列的概率：

$P(w_1, w_2, w_3, w_4) = P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_1, w_2) P(w_4 \mid w_1, w_2, w_3).$

n-gram 语言模型

如果一个句子特别长，那么计算和存储多个词共同出现的概率的复杂度会呈指数级增加。

由此引入 n-gram 语言模型，n-gram 是一种基于统计模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度为n的字节片段序列，每一个字节片段称为gram。

n-gram 模型基于马尔可夫假设，第n个词的出现只与前面 n-1 个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积：
$P(w_1, w_2, \ldots, w_T) \approx \prod_{t=1}^T P(w_t \mid w_{t-(n-1)}, \ldots, w_{t-1}) .$
这些概率可以通过直接从语料中统计 n 个词同时出现的次数得到。常用的是 n=2 的Bi-Gram和 n=3 的Tri-Gram。