经典回顾：N-gram模型

最新推荐文章于 2023-03-25 23:09:48 发布

梨小茗

最新推荐文章于 2023-03-25 23:09:48 发布

阅读量285

点赞数

文章标签：自然语言处理 nlp 算法

本文链接：https://blog.csdn.net/rgb_gray/article/details/107966337

版权

N-gram模型是一种简化语言模型概率计算的方法，通过只考虑前N-1个词来估算下一个词出现的概率。在自然语言处理中，通常使用<s>和</s>作为句子的开始和结束标识符。以2-gram为例，通过统计语料库中的gram片段频率，可以计算一句话是否符合人类语言的概率。例如，给定输入“i want chinese food”，结合词频和2-gram概率表，可以计算这句话的概率。

摘要由CSDN通过智能技术生成

简介

N-gram模型是一种语言模型，即给定语料库后，向模型输入一句话，模型输出该句话符合人说的话的概率。

动机

一般情况下，计算由m个词组成的一句话符合人说话的概率为： $P(w_1,w_2,...,w_m)=P(w_1)P(w_2|w_1)...P(w_m|w_{m-1},w_{m-2},...,w_1)$
可以看出这个概率不好计算。而N-gram模型实际上提供了一种计算这个概率的简便方法，即每次词出现的概率只和前N-1个词有关系(类似于马尔可夫过程)，这样的话大大简化了计算。这里以N=2为例，则概率被修改为