经典统计语言模型 -- Statistical Language Model

最新推荐文章于 2025-03-10 15:59:33 发布

别水贴了

最新推荐文章于 2025-03-10 15:59:33 发布

阅读量1k

点赞数 1

分类专栏： NLP 文章标签： nlp 自然语言处理算法人工智能机器学习

本文链接：https://blog.csdn.net/fengzhou_/article/details/105912976

版权

NLP 专栏收录该内容

18 篇文章

订阅专栏

模型介绍

NLP早期常用的统计方法，对于一个sequenc的句子 $(w_1w_2w_3{\cdots}w_n, w_i$ 表示某个词)，其出现的概率计算如下：
$P(S)=P(w_1){\cdot}P(w_2|w_1){\cdot}P(w_3|w_1w_2){\cdots}P(w_{n}|w_1w_2{\cdots}w_{n-1}) \tag1$
引入马尔可夫假设，任意一个词出现的概率，只和前N-1个词有关, 特别的当N=2的时候，公式1变为如下
$P(S)=P(w_1){\cdot}P(w_2|w_1){\cdot}P(w_3|w_2){\cdots}P(w_{n}|w_{n-1}) \tag2$

核心思想

一个句子的合理性为该句子在语料中出现的概率
句子出现的概率为句子中词按顺序出现的概率
引入马尔可夫假设：N-gram模型为任意一个词出现的概率，和前N-1个词有关，以上公式(1)为Bigram，当前词的概率只和前一个有关

那么如何计算 $P(w_n|w_{n-1}))$ 呢， $P(w_n|w_{n-1})$ 为条件概率，根据定义有
$P(w_n|w_{n-1}) =\frac{P(w_{n-1},w_n)}{P(w_{n-1})} \tag3$
其中 $P(w_{n-1},w_n)$ 为联合概率密度, 只要语料库够大 $P(w_{n-1},w_n)=\frac{\#(w_{n-1}, w_n)}{\#}$ , $P(w_{n-1})=\frac{\#(w_{n-1})}{\#}$ , $w_{n-1}, w_n)$ 为 $w_{n-1}w_n$ 这个二元组在语料corpus中出现的次数，对 $P(w_{n-1})$ 为0的情况