N-gram模型简介

N-gram

N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。

概率计算

假设现在有一个由n个词组成的句子 S = ( w 1 , w 2 , w 3 , . . . , w n ) S=(w_1,w_2,w_3,...,w_n) S=(w1,w2,w3,...,wn),要衡量S出现的概率,那么根据马尔可夫假设,一个词的出现只与它之前的若干个词有关。

p ( w 1 . . . w n ) = ∏ p ( w i ∣ w i − 1 . . . w 1 ) ≈ ∏ p ( w i ∣ w i − 1 . . . w i − N + 1 ) p(w_1...w_n)=\prod p(w_i|w_{i-1}...w_1)\approx \prod p(w_i|w_{i-1}...w_{i-N+1}) p(w1...wn)=p(wiwi1...w1)p(wiwi1...wiN+1)

  • 如果一个词的出现仅依赖它之前的一个词,那么我们称之为Bi-gram
  • 如果一个词的出现仅依赖它之前的两个词,那么我们称之为Tri-gram
  • N可以取任意值,但当N太大时会导致参数空间过大和数据稀疏的问题

那么如何计算 p ( w i ∣ w i − 1 . . . w i − N + 1 ) p(w_i|w_{i-1}...w_{i-N+1}) p(wiwi1...wiN+1) 呢,这里使用古典概型,也就是语料库中这个有序单词组合出现过的次数除以右侧出现的频数,即: p ( w i ∣ w i − 1 . . . w i − N + 1 ) = C ( w i − N + 1 . . . w i ) C ( w i − N + 1 . . . w i − 1 ) p(w_i|w_{i-1}...w{i-N+1})=\frac{C(w_{i-N+1}...w_i)}{C(w_{i-N+1}...w_{i-1})} p(wiwi1...wiN+1)=C(wiN+1...wi1)C(wiN+1...wi).

应当注意的是,长句子会导致多项小于1的常数相乘约等于1,在实际计算中,我们会对概率取对。

另外新生成的句子有可能会出现语料库中不曾出现的单词序列,这会导致除0错误,我们可以对分子分母都加一,或把 ( w i − N + 1 . . . w i − 2 ) (w_{i-N+1}...w_{i-2}) (wiN+1...wi2)出现的概率分一部分给$ (w_{i-N+1}…w_{i-1})$ 这一项。

参考自:https://blog.csdn.net/songbinxu/article/details/80209197
更多内容: www.github.com/fansking/NlpWithMe

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值