从头细说统计机器翻译(1)

       做统计翻译系统(SMT,statistical machine translation)也有一段时间了,接触了大大小小好几个翻译系统,使用它们的同时也对其原理进行了一定的了解,阅读了一些中英文资料文献,对统计机器翻译的过程有了一个比较完整的认识,自己也做了一些笔记。比较详细的一本介绍统计机器翻译的书是Philipp Koehn写的《Statistical Machine Translation》,现在已有其中文译著《统计机器翻译》,我这里就这这本书的思路,加上一些其他的资料文献,对统计机器翻译做一个细致一些的讲解,希望能对大家有一些帮助。

下面是一些SMT发展过程中的大事记:

       1980年代末IBM首次开展统计机器翻译研究, 1992年IBM首次提出统计机器翻译的信源信道模型, 1993年IBM提出五种基于词的统计翻译模型IBM Model 1-5, 1999年JHU夏季研讨班重复了IBM的工作并推出了开放源代码的工具, 2001年IBM提出了机器翻译自动评测方法BLEU, 2002年NIST开始举行每年一度的机器翻译评测,2002年Franz Josef Och提出统计机器翻译的对数线性模型, 2003年Franz Josef Och提出对数线性模型的最小错误率训练方法, 2004年Philipp Koehn推出Pharaoh(法老)标志着基于短语的统计翻译方法趋于成熟, 2005年David Chiang提出层次短语模型并代表UMD在NIST评测中取得好成绩,2005年Google在NIST评测中大获全胜,随后Google推出基于统计方法的在线翻译工具,其阿拉伯语-英语的翻译达到了用户完全可接受的水平,目前已经可以支持40多种语言的互译, 2006年NIST评测中USC-ISI的串到树句法模型第一次超过Google(仅在汉英受限翻译项目中)。

       下面是对《统计机器翻译》一书第二章的总结和笔记:



       频次最高的词分布如下图所示:


       在欧盟语料库中,齐夫定律体现的很明确,具体数值分布和数值图示如下两图所示:





  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值