基于互联网语料的“机器翻译助手”

如果将机器翻译看做是一条线的话,那么线的一头就是类似于金山词霸的词典式方法。这种方法只提供词这一层面的翻译。对于一个不认识的英文单词,通过查找词典可以找到它对应的中文。同样,查找一个中文词可以找到很多个可能对应的英文单词。这种翻译方式很大的一个缺点是缺少翻译中的上下文信息,它只能孤立的进行词与词之间的翻译,而没有考虑到在不同的上下文环境中词的含义是不一样的。例如“吃了午饭”中的“吃”对应的词应该是“eat”,但其实“吃午饭”这个词组一般对应于“have lunch”。
线的另一头则是传统的machine learning所代表的整句的机器翻译技术。包括了三大门派,RBMT(基于规则的机器翻译),EBMT(基于实例的机器翻译),SMT(基于统计的机器翻译)。 google的翻译系统就是这样一个系统。但无论是哪个门派,采用哪种方法,这些方法的目的都是提供一个完整的翻译解决方案,就是说在没有任何人工干预的情况下进行整句甚至是整篇文章的翻译。应该说,这是机器翻译的终极目标,但可惜的是,它们的性能都还远远达不到实用的程度(除非在某些小的特定领域)。

以上两种方案大部分人都非常最熟悉,但其实,最近出现了一种新的尝试,介于线两头的某个中间地段。我试图举个例子来说明这种方法。
有道海量词典很多人都用过,它属于的是基于词典的方法。只是它的词典构造有些特殊,这个词典不是来源于人的编排,例如牛津大辞典等等,而是来源于网络。网络上面存在着大量的双语语料,例如很多网页上都存在这一个名词后跟着一个括号,括号里面是它对应的英文单词,如"机器翻译(machine learning)是一种....",有道词典就是通过某种方法(应该是规则的方法)将这些网络中的双语语料抓取出来,自动的组成一个词典。这样的词典有个非常大的好处,就是它会包含很多专有名词或者最新流行词汇词组的翻译,如“ 次贷危机 - subprime mortgage crisis”,而这是以前的词典所没法做到的。
说了这么多,其实我想提及的是有道词典的另一个功能,就是它的例句功能。在有道词典中查找任何词或者短语,它都会返回包含了相关词/短语的双语例句,而这些例句也是来源于互联网的,可以认为基本上它们的翻译都是正确的。例如:
   次贷危机正朝更糟糕的局面发展.
    The subprime mortgage crisis is poised to get much worse.    
这个功能对于我来说非常的有用,因为对于我这个有点英语基础但是又不够好的人来说,很多时候写英语最麻烦的就是写的句子不够地道,句子的结构不够漂亮。但是现在,我可以通过有道词典很好的解决这个问题,例如我想翻译“google的翻译系统就是这样一个系统”,那么我通过搜索“就是这样一个”的例句,发现大部分都翻译成了“is such a”,然后这句话我就知道可以翻译成“Google's Translate is such a sytem”。
通过搜索句子的主干或者句式来找到对应的翻译例句,然后再在例句的基础上替换自己句子的其它部分。它并不是过去传统的机器翻译方法,而是需要人工干预。这里很关键的地方就在于你找到的例句都是正确且真实的,你可以相信你找到的结果,并在这个基础上进行修正。而如果你用google翻译等传统的机器翻译系统,结果不需要人工干预,但是却不让人放心(确实也不准确),因为机器翻译的现有水平还没有达到这个程度。

写这篇文章的原因是在CSDN上看到了这篇文章:
基于例句搜索的中英文翻译和写作
这个系统提供的就是我所描述的,一个类似于机器翻译助手的角色。如文中所说,

该系统应用前景包括对用户的中英文翻译和写作,主要体现在如下三个方面:
1. 用户仅知道中文,不知英文怎么说?如“憧憬未来,符合标准”等;
2. 用户可以写出一句英文,却不确认自己写的是否正确?此时基于实例的机器辅助翻译可以帮助用户“写对写准”;
3. 用户想了解有没有更典雅的表达,此时基于实例的机器辅助翻译和写作可以帮助用户“写得更好”;比如用户写了一句“The story started with a storm.(故事开始于一场风雪。)”,系统就可以提示用户时候可以考虑改成“The story opened with a storm.”

我想,这会是机器翻译领域一个崭新的思路。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值