9.4.2 噪声信道模型(Noise Channel Model )
噪声信道模型可以理解为正确的查询通过一个噪声信道传输,在传输过程中受到外界 千扰,导致在信息接收端收到的杳询发生错误,图9-11是噪声信道模型的原理示意。
给定错误查询V及其对应的可能正确査询W,噪声信道模型将査询纠错任务转换成了 估汁概率P(W|V),其含义是:接收到错误的杳询V,这个查询对应的正确查询是W的概 率有多大,对于多个候选正确答案,选择概率值最大的作为v对应的正确査询。将/&wiv) 根据贝叶斯公式转写为:
因为对于多个候选答案W1,W2,…,W?来说,这个公式的分母P(V)都是相同的,所以 可以忽略不计,于是问题转换成求:
Argmax(尸(V| W) X />( W))
就是说哪个候选答案m使得上面公式得分最大,那么这个m就是错误查询V对应 的JH确查询。
上述公式又可以分为两个因子:P(V|W)与/>(W)。P(V|W)被称为错误模型,即正确杏 询W被错写成V的概率,具体计算方法有很多种,比如可以用上节提到的编辑距离计算, 也可以收集一些被错误拼写的查询例子,用这鸣例子的统计数据来计算错误模型。P(W)被 称为语言模型,可以通过计算查询W在所有查洵中出现的概率值来估计&如果可以估计以 上两个因子,就可以计算哪个Wi是错误査询V的正确输入。
田9-11嗓声信道檯型的原理示意
/Wl V)=尸(V| W) X P(W)/P(V)
本章提要
?准确分析用户的搜索意图是目前搜索引擎研发的潮流与重点方向。 ?用户的