N-gram模型简介

最新推荐文章于 2022-05-26 15:24:10 发布

fans king

最新推荐文章于 2022-05-26 15:24:10 发布

阅读量454

点赞数

分类专栏： NLP 文章标签： nlp 自然语言处理算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40631132/article/details/104740406

版权

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

N-gram

N-gram模型是一种语言模型（Language Model，LM），语言模型是一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率，即这些单词的联合概率（joint probability）。

概率计算

假设现在有一个由n个词组成的句子 $S=(w_1,w_2,w_3,...,w_n)$ ,要衡量S出现的概率，那么根据马尔可夫假设，一个词的出现只与它之前的若干个词有关。

$p(w_1...w_n)=\prod p(w_i|w_{i-1}...w_1)\approx \prod p(w_i|w_{i-1}...w_{i-N+1})$

如果一个词的出现仅依赖它之前的一个词，那么我们称之为Bi-gram
如果一个词的出现仅依赖它之前的两个词，那么我们称之为Tri-gram
N可以取任意值，但当N太大时会导致参数空间过大和数据稀疏的问题

那么如何计算 $p(w_i|w_{i-1}...w_{i-N+1})$ 呢，这里使用古典概型，也就是语料库中这个有序单词组合出现过的次数除以右侧出现的频数，即： $p(w_i|w_{i-1}...w{i-N+1})=\frac{C(w_{i-N+1}...w_i)}{C(w_{i-N+1}...w_{i-1})}$ .

应当注意的是，长句子会导致多项小于1的常数相乘约等于1，在实际计算中，我们会对概率取对。

另外新生成的句子有可能会出现语料库中不曾出现的单词序列，这会导致除0错误，我们可以对分子分母都加一，或把 $w_{i-N+1}...w_{i-2})$ 出现的概率分一部分给$ (w_{i-N+1}…w_{i-1})$ 这一项。

参考自：https://blog.csdn.net/songbinxu/article/details/80209197
更多内容: www.github.com/fansking/NlpWithMe

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
N-gram模型简介

N-gramN-gram模型是一种语言模型（Language Model，LM），语言模型是一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率，即这些单词的联合概率（joint probability）。概率计算假设现在有一个由n个词组成的句子S=(w1,w2,w3,...,wn)S=(w_1,w_2,w_3,...,w_n)S=(w1,w2,w3,...,...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。