自然语言

自然语言模型

一个句子的概率
P(s)=p(w1,w2,...wm)= P ( s ) = p ( w 1 , w 2 , . . . w m ) = p(w1)p(w2|w1)...p(wm|w1,w2,...wm1) p ( w 1 ) p ( w 2 | w 1 ) . . . p ( w m | w 1 , w 2 , . . . w m − 1 )
n-gram模型又一个假定,就是当前单词出现概率仅仅与前面n-1个单词相关。 p(S)=p(w1,w2,...wm)=mi=1p(win+1,...wi1) p ( S ) = p ( w 1 , w 2 , . . . w m ) = ∏ i = 1 m p ( w i − n + 1 , . . . w i − 1 ) 其中n表示当前单词依赖它前面的单词的个数。 p(win+1,...wi1)=C(win+1,...wi1,wi)C(win+1,...wi1) p ( w i − n + 1 , . . . w i − 1 ) = C ( w i − n + 1 , . . . w i − 1 , w i ) C ( w i − n + 1 , . . . w i − 1 ) 其中C(X)表示单词序列在训练语料库中出现的次数。

评估指标

语言模型常用的评估指标为复杂度perplexity,它刻画的是通过某一语言模型估计的一句话出现的概率。比如当已经知道 (w1,w2,...wm) ( w 1 , w 2 , . . . w m ) 这句话出现在语料库中,那么通过语言模型计算出得出这个句子得概率越高越好,也就是perplexity得值越低越好:

Perplexity(S)=p(w1,w2,...wm)1m=1p(w1,w2,...wm)m=i=1m1p(wi|w1,w2,...wi1)m P e r p l e x i t y ( S ) = p ( w 1 , w 2 , . . . w m ) 1 m = 1 p ( w 1 , w 2 , . . . w m ) m = ∏ i = 1 m 1 p ( w i | w 1 , w 2 , . . . w i − 1 ) m

复杂度表示的是平均分支系数,即预测下一个词时平均可选择数量。
另一种常用的perplexity表达形式
log(perplexity(S))=p(wi|w1,w2,...wi1)m l o g ( p e r p l e x i t y ( S ) ) = − ∑ p ( w i | w 1 , w 2 , . . . w i − 1 ) m

通俗易懂例子

考虑一个由0~9随机组成的长度为m的序列,由于这10个词出现的概率是随机的,所以每个词出现的概率都是1/10,因此在任意时刻,模型都有10个等概率的候选答案可以选择,于是perplexity的计算:

Perplexity(S)=i=1m1110m=10 P e r p l e x i t y ( S ) = ∏ i = 1 m 1 1 10 m = 10

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值