Language Modeling with N-grams (Speech and Language Processing)

最新推荐文章于 2020-02-26 16:23:32 发布

weixin_30548917

最新推荐文章于 2020-02-26 16:23:32 发布

阅读量129

点赞数

原文链接：http://www.cnblogs.com/whuqin/p/6532749.html

版权

语言模型

计算词序列（words sequences)概率的模型称为语言模型（LMs）,词序列(w1,w2,...,wn)的概率为：
P(w₁ⁿ) = P(w₁)p(w₂|w₁)P(w₃|w₁w₂)...P(w_n|w₁^n-1)

Bigram model

二元模型的前提是Markov假设（一个词的概率只依赖于其前面一个词），值为前一个词下的条件概率，不再是前面词序列下的条件概率。
P(w_n|w₁^n-1) => P(w_n|w_n-1)

N-gram model

N元模型词概率设为前N-1个词下的条件概率
P(w_n|w₁^n-1) => P(w_n|w_n-(N-1)^n-1)

计算实例

计算下二元模型的词序列概率。
下图展示了一个语料库里各词出现次数

下图展示了二元词序列的出现次数及其各词概率

如(i want)词序列出现827次，i出现2533次，P(want|i) = 827/2533 = 0.33

log概率

通常概率计算转换为log概率，避免概率相乘过小溢出。存储的时候只记录log和，需要原始概率时再进行转换。
P₁P₂P₃P₄=e^{(lnP₁ + lnP₂ + lnP₃ + lnP₄)}
概率大小就存储为lnP₁ + lnP₂ + lnP₃ + lnP₄

参考

http://web.stanford.edu/~jurafsky/slp3/

转载于:https://www.cnblogs.com/whuqin/p/6532749.html

weixin_30548917

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Language Modeling with N-grams (Speech and Language Processing)

语言模型计算词序列（words sequences)概率的模型称为语言模型（LMs）,词序列(w1,w2,...,wn)的概率为：P(w1n) = P(w1)p(w2|w1)P(w3|w1w2)...P(wn|w1n-1)Bigram model二元模型的前提是Markov假设（一个词的概率只依赖于其前面一个词），值为前一个词下的条件概率，不再是前面词序列下的条件概率。P(wn...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。