这是一篇90年代关于机器翻译的论文,作为一名初学者,怀着考古和朝圣的心记下了这篇笔记。
这篇文章之所以重要,在于他提出了基于概率模型的机器翻译方法(之前用于语音方面),他把机器翻译的过程视作信息通信问题(网上是这么说的,我对通信方面不太懂),并将过程分为了语言模型、翻译模型、解码三个部分。可以说是统计机器翻译奠基文章
来自90年代的思考
Although researchers quickly abandoned this approach, advancing numerous theoretical objections, we believe that the true obstacles lay in the relative impotence of the available computers and the dearth of machine-readable text from which to gather the statistics vital to such an attack.
(来自90年代的科技力量)
Today, computers are five orders of magnitude faster than they were in 1950 and have hundreds of millions of bytes of storage.
统计思想
来自源语言的任意句子 和 来自目标语言的任意句子,都有概率是彼此的翻译句对,只是概率高低不同。模型的预期效果是正确句对的概率高,错误句对的概率低。用条件概率表示句对的概率,那么根据贝叶斯公式有: