Noisy channel model and POS tagging
一、Noisy Channel Model
很多问题涉及根据数据X预测标签Y,比如:
语音识别,机器翻译(X是源语言,Y是目标语言),拼写纠错(X是带有拼写错误的源文件,Y是无拼写错误的目标文件),密码破解等
假定现在我们可以估计.然后我们可以计算
引入Noisy Channel Model
此处通过使用贝叶斯公式,P(X=x)是常量,可以不用管(为什么是常量,暂时还没明白)
因此求解公式就变成了
是channel model, 叫做source model 或者language model(语言模型)
的求解使用行业已有的知识,比如在拼写纠错中
,可以从后台收集用户的输入数据,用户输入某个单词10次,其中有一次拼错了,那么