NLP系列(5)_从朴素贝叶斯到N-gram语言模型

最新推荐文章于 2024-08-20 03:21:11 发布

龙心尘

最新推荐文章于 2024-08-20 03:21:11 发布

阅读量2.5w

点赞数 16

分类专栏：自然语言处理文章标签： nlp 自然语言处理 ngram 语言模型机器学习

本文链接：https://blog.csdn.net/longxinchen_ml/article/details/50646528

版权

本文介绍了NLP中从朴素贝叶斯方法的局限性出发，探讨了N-gram语言模型的原理和应用场景，包括词性标注、垃圾邮件识别和中文分词。N-gram通过考虑词语的顺序信息来改善独立假设的不足，但面临零概率问题，可通过平滑技术如拉普拉斯平滑和古德图灵平滑进行解决。

摘要由CSDN通过智能技术生成

作者：龙心尘 && 寒小阳
时间：2016年2月。
出处：
http://blog.csdn.net/longxinchen_ml/article/details/50646528
http://blog.csdn.net/han_xiaoyang/article/details/50646667
声明：版权所有，转载请联系作者并注明出处

##1. 引言：朴素贝叶斯的局限性

我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过，朴素贝叶斯的局限性来源于其条件独立假设，它将文本看成是词袋子模型，不考虑词语之间的顺序信息，就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢？有，就是本节要接到的N-gram语言模型。

##2. N-gram语言模型是啥？

2.1从假设性独立到联合概率链规则

照抄我们前文垃圾邮件识别中的条件独立假设，长这个样子：

$P (（ “ 我 ”, “ 司 ”, “ 可 ”, “ 办理 ”, “ 正规发票 ”, “ 保真 ”, “ 增值税 ”, “ 发票 ”, “ 点数 ”, “ 优惠 ”) ∣ S)$
$= P (“ 我 ” ∣ S) \times P (“ 司 ” ∣ S) \times P (“ 可 ” ∣ S) \times P (“ 办理 ” ∣ S) \times P (“ 正规发票 ” ∣ S)$
$\times P (“ 保真 ” ∣ S) \times P (“ 增值税 ” ∣ S) \times P (“ 发票 ” ∣ S) \times P (“ 点数 ” ∣ S) \times P (“ 优惠 ” ∣ S)$

为了简化起见，我们以字母 $x_i$ 表示每一个词语，并且先不考虑条件“S”。于是上式就变成了下面的独立性公式。

$P(x_1,x_2,x_3,x_4,x_5,x_6,x_7,x_8,x_9,x_{10})$
$P(x_1)P(x_2)P(x_3)P(x_4)P(x_5)P(x_6)P(x_7)P(x_8)P(x_9)P(x_{10})$
$= P (“ 我 ”) P (“ 司 ”) P (“ 可 ”) P (“ 办理 ”) . . . P (“ 优惠 ”)$