机器翻译都 60 年了，谷歌为什么还译不对「卡顿」 (上)

最新推荐文章于 2021-06-18 12:10:34 发布

HyperAI超神经

最新推荐文章于 2021-06-18 12:10:34 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/HyperAI/article/details/102693637

版权

By 超神经

场景描述： 机器翻译是自然语言处理上的一个重要应用，从他最初的诞生到现在，已经过去了 60 多年，但在一些小问题上，还是会出现令人啼笑皆非的局面。机器翻译是如何一步步发展来的？它背后的的机理是什么样子？它的局限性又是怎么一回事呢？

关键词：机器翻译发展历史

虽然谷歌翻译已经发布这么多年，但它还是时不时会闹出一些笑话。

比如「安卓手机非常卡顿」这句话，在去年会被翻译成「Android phone is very fast」，现在则是「Android phone is very Caton」。此外「我的电脑也很卡」会被翻译成「My computor is also very card」。

2019 年 10 月的谷歌翻译结果

卡顿和卡对应了 Caton 和 card

回溯一下，谷歌翻译上一个重大更新是 2016 年开始采用 神经机器翻译（GNMT） 的系统，它包括 8 个编码器和 8 个解码器，用于 9 种语言的翻译。

他们不仅把句子分开，而且还把单词分开，这也是它如何处理一个罕见单词的做法。当单词不在字典里时，NMT 是没有参考的。比如翻译一个字母组「Vas3k」，在这种情况下，GMNT 试图将单词拆分为单词块并恢复它们的翻译。

但因为有开篇的那些小笑话，让我们想要开始研究机器翻译。本篇文章将对机器翻译这六十多年来的发展进行梳理，包括基于规则的机器翻译（RBMT）、基于实例的机器翻译（EBMT）、统计机器翻译（SMT）、神经机器翻译（NMT）等主流方法，以及 Google、Yandex 等厂商的领先算法进行分析。

您正在阅读的正是这篇系列文章的上半部分，《机器翻译的 1933-1984》。

进展缓慢的前四十年

机器翻译最开始出现于 1933 年，也就是冷战时期。

当时苏联科学家 Peter Troyanskii 在苏联科学院提出了 「开发一种可以用于语言翻译，并能够打印文字的机器用」 。这台机器的构造非常简单——只有四种不同语言的卡片和一台打字机，及一部老派电影摄影机。

操作员从文本中取出第一个单词，找到相应的卡片，拍下照片，并在打字机上键入其形态特征(名词、复数、属格等)。打字机根据其中某些特征进行翻译，并通过磁带和照相机的胶卷来呈现。

最早的机器翻译模型示意

即便它能进行简单的翻译，但在当时仍被认作是一项「无用的」发明。可惜的是， Troyanskii 为这项发明耗费了 20 年光阴 ，最终死于心绞痛，这项发明也随之告终。在 1965 年两明苏联科学家发现这个机器之前，世界上几乎没人知道它的存在。

1954 年 1 月 7 日，也就是冷战开始初期， 在纽约 IBM 总部出现了历史上第一台真正意义上的翻译机——IBM 701， 它将 60 个俄语句子成功翻译成英文，这就是著名的乔治城——IBM 实验。

工作人员在使用 IBM 701

但是，完美的噱头是为了掩盖了一个小细节。没有人提到翻译的例子经过仔细挑选和测试，以排除任何歧义。对于日常使用，这个系统不比一本快速翻译手册好。

即便如此，现代自然语言处理的基础仍是由包括美国在内的科学家们，通过不断尝试、研究和发展所创造的。今天所有的搜索引擎，垃圾邮件过滤器，以及个人助理的出现也是基于此。

基于规则的机器翻译（RBMT）

围绕基于规则的机器翻译这个想法最早出现在 70 年代，科学家们仔细观察译员的工作，试图迫使电脑重复这些动作。这些系统包括:

双语词典（RU -> EN）
每一种语言的一套语言规则(例如以某些后缀为后缀的名词，如-heit,、-keit、 -ung 等)，也就是词根词性。

如果需要的话，系统还可以添加一些技巧，比如名称列表、拼写校正器和音译程序。

词典和语言规则以及小技巧构成的翻译体系

PROMPT 和 Systran 是 RBMT 系统中最著名的例子 ，即便他们也有一些细微差别和亚种。

机器直接翻译

这是最直接的机器翻译类型。它将文本中的文字进行逐个翻译，并稍微纠正其形态，以及协调语法使整个段落看起来翻译的更准确。至于而这些修改规则，均是由专业的语言学家设定。

不过，这些翻译规则有时候会失效，而且翻译的很糟糕。虽然现代系统根本不使用这种规则，但却深受现代语言学家的喜爱。

逐字/词翻译的示例

基于语法结构的机器翻译

与直译相比，我们先确定句子的语法结构，就像我们在学校老师教的那样。然后我们分析整个结构，而不是个别单词，这在理论上有助于在翻译中获得相当好的词序转换。

但在实践中，这种方法仍存在局限。一方面，它简化了一般的语法规则，但另一方面，由于词语结构的增多与单字相比，它的翻译变得更加复杂。

中介语的机器翻译

在此方法中，源文本被转换为中间表示，并统一于所有世界语（interlingua）。它与笛卡尔所梦想的一样： 一种元语言，它遵循通用规则，将翻译转换成简单的「来回」任务。 这可以使 interlingua 能够转换任何目标语言。

由于这种转换，Interlingua 经常与基于转移的元语言系统相混淆。不同之处在于，语言规则是针对每一种语言和语言的，而不是语言对。这意味着，我们可以向 interlingua 系统添加第三种语言，并在三者之间进行转换，而这在基于语法结构的翻译系统中很难实现。

借用第三语言，进行语言翻译

它看起来很完美，但在现实生活中却并非如此。创造这种中间语是极其困难的——许多科学家一生都在研究它。虽然他们没有获得巨大成功， 但是多亏了他们，我们现在有了形态学，句法，甚至语义层次的表征。

不过，RBMT 也有优点，比如它的形态学准确性(它不会混淆单词)、结果的再现性(所有译者都得到相同的结果)，以及将其调到主题领域的能力(例如，教经济学家或工程界的术语)。

即使有人成功地创造出了一个理想的 RBMT，且不断有语言学家用所有的拼写规则来增强它，但总会有一些例外是它不能应对的。 比如英语中的不规则动词、德语中的可分前缀、俄语中的后缀，以及人们用不同的表达方式等。

如果要对这些细微的差别进行补充修复，所耗费的成本是非常庞大的。不要忘了同音异义词，即同一个词在不同的语境中可以有不同的意思，这就导致同一句话可能存在许多种翻译。比如，当我说「我看见一个人在山上用望远镜」时，你觉得这里面会包含多少中含义呢？

在冷战的 40 年里，虽然机器翻译在发展，但并未找到一个明确的解决办法来提高翻译的精度和便捷性。

所以，RBMT 早就凉凉了。

基于实例的机器翻译(EBMT)

到了上世纪八十年代，为了在即将到来的全球化中，尽快站稳脚跟，很少有人懂英文的日本迫切需要机器翻译。在国家政策大力支持下，日本成为当时对机器翻译最具兴趣的国家。

由于基于规则的机器翻译（RBMT）很难进行英日翻译，因为翻译过程几乎要将所有的单词重新排列，而且还涉及到新的单词，这迫使日本必须寻求新的翻译思路。

于是， 1984年，京都大学的 Makoto Nagao 提出了用现成的短语代替重复翻译的想法，也就是所谓基于实例的机器翻译（EBMT）。 输入的案例越多，翻译也就越快越准确。

EBMT这个想法的出现，就像一颗火种点燃了科学家们的创新灵感，这对机器翻译的发展极具意义，虽然它还谈不上革命性的创举。但在5年之后，极具革命意义的 统计翻译 将基于此出现。

下篇预告

统计机器翻译(SMT)主导的 1990s-2000s 机器翻译时代；
神经机器翻译(NMT)在 2015 年终于粉墨登场；
Google 与 Yandex 的高级玩法；

机器翻译的发展简史

—— 完 ——

扫描二维码，加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解详情

更多精彩内容（点击图片阅读）

HyperAI超神经

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫