语言模型公式推导

这篇博客探讨了句子概率P(S)及其与n-gram语法模型的关系,详细介绍了bigram模型的条件概率计算,并扩展到n-gram模型。通过最大似然估计法估算条件概率,同时也指出随着n值增大,模型复杂度增加,需要平滑算法来处理零频率问题。
摘要由CSDN通过智能技术生成


语言模型在信息检索、机器翻译、语音识别中承担着重要的任务。一个语言模型通常构建为字符串s的概率分布 p ( s ) p(s) p(s),这里 p ( s ) p(s) p(s)试图反映的是字符串 s s s作为一个句子出现的概率。

句子的概率P(S)及n-gram语法模型

若一个字符串句子由 n n n个词构成:
s = w 1 w 2 . . . w n s=w_1w_2...w_n s=w1w2...wn
那么期概率的计算公式可以表示为:
P ( S ) = P ( w 1 , w 2 , . . . , w n ) P(S)=P(w_1,w_2,...,w_n) P(S)=P(w1,w2,...,wn)
由全概率公式 P ( A B ) = P ( B ∣ A ) P ( A ) P(AB)=P(B|A)P(A) P(AB)=P(BA)P(A)可以推广得到:
P ( w 1 , w 2 , . . . , w n ) = P ( w n ∣ w 1 , w 2 , . . . , w n − 1 ) P ( w 1 , w 2 , . . . , w n − 1 ) = P ( w n ∣ w 1 , w 2 , . . . , w n − 1 ) P ( w n − 1 ∣ w 1 , w 2 , . . . , w n − 2 ) P ( w 1 , w 2 , . . . , w n − 2 ) = . . . = ∏ i = 1 n P ( w i ∣ w 1 , w 2 , . . . , w l − 1 ) \begin{aligned} P(w_1,w_2,...,w_n) =& P(w_n|w_1,w_2,...,w_{n-1})P(w_1,w_2,...,w_{n-1}) \\ =& P(w_n|w_1,w_2,...,w_{n-1})P(w_{n-1}|w_1,w_2,...,w_{n-2})P(w_1,w_2,...,w_{n-2}) \\ =& ...\\ =& \prod_{i=1}^nP(w_i|w_1,w_2,...,w_{l-1}) \end{aligned} P(w1,w2,...,wn)====P(wnw1,w2,...,wn1)P(w1,w

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值