自然语言处理4-1:语言模型之Noisy Channel Model

Noisy Channel Model其实就是指的下面这个公式:

P(text|source)=P(source|text)P(text)P(source)P(text|source)=P(source|text)P(text)P(source)

因为P(source)是一个固定的值,所以又可以写成:

P(text|source)∝P(source|text)P(text)P(text|source)∝P(source|text)P(text)

在上式中,source是一个信号源,text是我们需要转换成的文本,例如在拼写纠错中,source是输入的单词,text是正确的单词;在机器翻译中,source是待翻译的语言,text是翻译的目标语言;语音识别中,source是语音信号,text是对应的文本。很容易理解, P(source|text)可以看成是文本和信号的相似度,称为“翻译模型”或者“识别模型”,例如,在拼写纠错中,P(source|text)可以表示编辑距离,或者可以表示,当一个人想要输入text结果输入成了source的概率。而P(text)可以看成text这个文本是否常见,例如,在拼写纠错中,我们要寻找输入单词对应的正确的单词,除了需要和输入单词的编辑距离越小越好,还需要正确单词越常见越好。例如,如果有个人输入“jappy”,那么他有可能是想输入“happy”,也有可能是想输入“pappy”,虽然“happy”,“pappy”和“jappy”的编辑距离一样,但是由于happy更常用,所以正确单词是happy更有可能。P(text)就是衡量文本的正确性或者常用概率的,称为“语言模型”

其一个具体的应用就是在前面写到的拼写纠错。在拼写纠错中,

P(正确单词|输入单词)∝P(输入单词|正确单词)P(正确单词)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值