一文带你了解机器翻译

9bec7746cc38e230b87a48eb42a27b89.gif

528eaf6cf48d53a8f31ca6b6ccd28f43.png

导读:机器翻译是个学术味和生活味都特别浓的词。现在中国是个很大的市场,国外的游戏、小说和影视剧现在都出了中文版,如果译文质量不好大家就会吐槽,文雅一点的说“味同嚼蜡”,大多数人就直白多了,直接就说“像机翻一样”。这里的“机翻”就是机器翻译。

ce0b14caed21efb7c3e40ec73483404d.png

01

为什么要有机器翻译

小标题起得有点凡尔赛,其实原因我们都知道,因为翻译始终是一种短缺的资源,尤其对于一些小众的语言和小众的消息,可能永远不会有人来翻译成中文。这时我们要去获取信息无非就两种选择,一种是发下狠誓自学这门外语,另一种就是指望机器翻译——这也是大多数人的选择。

不过,早年机器翻译总给人一种指望不上的感觉。译文经常牛头不搭马嘴,在中文语境无论如何都不可能凑在一起的两个词,在译文中偏偏就凑在了一起,剩下的部分只能靠大家的想象力来弥补。我曾经就加过同好群,一些同学负责在国外网站上搬运消息,另一些同学则负责猜测机翻到底说了什么东西,大家乐此不疲也算是机翻带来的另一种趣味。

到了移动互联网时代,机器翻译就跟在手机后面深深地渗透进了我们的日常生活。微信有长按翻译,能英译中也能中译英,据说做外贸的同学爱得不行。华为手机有全屏翻译,上外文网站也能如履平地。我最喜欢的则是翻译App都有的拍照翻译功能,买了外国的产品,对着外包装上爬满的洋文拍个照,App就直接在原图上给P成中文,感觉一下就打开了新天地,让人有种语言从此不再是问题的错觉。

拍照翻译功能看着神奇,原理说穿了也简单,就是OCR+机器翻译,OCR负责把图片上的字抠出来,然后输进机器翻译。技术都是现成的,不过不要小看它,这项功能绝对是“找准了应用场景,价值飙升”的典型案例。以前也有很多翻译软件,但都得先把外文输入进去,然后才能翻译成中文,问题就出在输入这个环节,如果这里的外文是英语我们还有点办法,单词不认识好歹字母还认识,要是法语、德语或者日语,不是学这个语种的都不知道应该怎么用键盘敲出来这个词。有了拍照翻译就简单多了,不但极大简化输入过程,不用再苦恼怎样输入奇怪的外文字符,甚至干脆不用输入,而且拍照本身就是手机自带属性,拍照翻译简直就是二者最佳的结合点,机器翻译的应用场景也一下变得更为广阔。

462d2cb1249fc219d2cd25bc584de889.png

02

机器翻译的进化简史

现在机器翻译可以说是无处不在,手机自然是其中一个原因,但更重要的原因当然是机翻水平这几年确实有了长足的进步,从早些年的不知所云,到现在已经至少是可堪使用。虽然距离“信达雅”的要求还差很远,但意思已经能读懂个八九不离十。

然而,冰冻三尺非一日之寒,机器翻译也是经历了漫长而曲折的进化历程。机器翻译在学科划分上,属于计算语言学。注意,这里是“计算语言学”,不是“计算机语言学”。不过,在我看来,计算语言学更像是机器翻译的前传。计算语言学也是起源于翻译,当时还是1950年代,美国人想要了解冷战对手苏联的科技发展情况,可是这事说起来简单做起来难,懂技术的专家大多不懂俄文,懂俄文的专家又大多不懂技术,两者都会的专家人数稀少,翻译效率可想而知,项目刚起步就撞上了语言障碍。而1950年代正是计算机科学特别是人工智能科学崭露头角的年代,科学界充满了理想甚至幻想,自然而然就想用快得多的计算机来完成翻译工作。

不过,不要以为这是人类第一次提出机器翻译的概念。对于机器翻译最早的起源,各家文献说法不一,有的说最早可以追溯至17世纪的笛卡尔时代,有的则说是1930年代有发明家提出具有机器翻译功能的设计图纸。只是,实现机器翻译不但需要大胆的想象和果决的执行,还要有相应的技术发展作为坚实基底,在技术发展达到某个水平之前,所有的设计只能是没法落地的空想。

目前公认机器翻译的真正开端始于乔治城大学和IBM的联合实验,成功将约60条俄文句子通过机器翻译译成英文,证明了机翻是可行的。学界对实验结果大感振奋,都觉得机翻稳了,在此后十年,美国政府也不断加大资金投入以期尽快产出成效。

不过,现在我们拥有了上帝视角,当然知道那时的美国人过于天真了,果然,到了1960年代,学界终于发现机器翻译远比想象的复杂,关键在于人类语言远比想象复杂,于是专门就有了采用计量方法研究复杂人类语言的计算语言学。

计算语言学的目的和现在我们常说的自然语言处理,也就是NLP非常类似,就是建立语言模型,最终达到让计算机也能理解、分析和处理人类语言,说的直白点,就是教计算机学说人话。科学家最开始想到的办法和我们小学学英语的办法是一样的,从句法、语法入手。语言学家阅读了大量语料,试图从中归纳出通用性的规则。

也许大家看过很多后来的文献,都知道这是一条吃力不讨好的路线。不过,如果放下后来者的上帝视角,会发现这条路线会有许多理所当然的地方:计算机是很擅长学会规则的,编程从某种意义上说就是编写各种规则,而人类学习语言直至今日也是从学习语法规则开始,所以,想到用规则达成目标从当时的角度来看确实是符合直觉的。当时的机器翻译也是沿着规则归纳这条路进行的研究。

这条路线取得了一些成果,当然最终不了了之。问题也许不在于规则,而在于不讲规则,是字面意义上的“不讲规则”。回想一下,我们学讲话的时候,有谁是从语法规则学起的吗?没有。我们是怎么学的呢?耳濡目染。很小的小孩子开始当然是不会说话的,但是他们会听,在生活中观察到大人谈论到某个对象时会固定发几个音,听得多了就知道那个对象该发什么音。从某种意义上说,这个过程使用的就是“统计学习方法”。

统计学习方法不再需要语言学家归纳规则,核心在于统计。也就是说,我再不管你背后有什么语法什么规律,我只看大家都怎么说。大家都这么说了,我就跟着这么说。当然,学说话不仅仅只是听,还要学,会根据参考答案修正。譬如学着对某个对象也发几个音,发对了大人会点头认可,发错了则会纠正,一来二去就学会说话了。用机器学习的术语来说,这叫有监督学习。

统计学习方法替代规则归纳成为主流以后,计算语言学就走上了快车道。不过,用统计学习方法来做计算语言学的任务,并不只是一种方法,而是发展出一系列的方法。技术发展是受客观规律限制的,当时方法是对路了,但硬件计算资源不足,各种不同流派的科学家于是八仙过海,各自想法子在螺蛳壳里做道场。

我手边有一本宗成庆老师的《统计自然语言处理》第二版,这是NLP领域的一本经典著作,相信搞NLP的同学都读过。这本书第一版写于2007年,第二版写于2013年,从时间上看并不太老,但如果和现在新出版的教科书比较,会发现在内容编排上已经出现了很多肉眼可见的不同。

技术路线上的变化足以写一本书,我们就从用户角度谈谈机器翻译的发展吧。机器翻译大概是从1980年代开始走上统计学习方法这条路的,一方面得益于计算机技术的发展,另一方面我觉得和数据积累达到一定量级也有关系。毕竟统计方法虽然不需要消耗专家,但是需要消耗计算资源和数据资源,也慢慢开始推出了一些产品。不过,前面已经一再说过,早期的机翻产品有各种一言难尽的地方,要知道,这里的“早期”指的不是1950年代,而已经是2010年代。这时的机器翻译虽然找对了大方向,还要继续找一找小方向。

这一找就找到了2016年,谷歌翻译宣布采用神经网络模型来做机器翻译,这在当时算个挺大的事,科技新闻几乎都报道了,我马上跑去试了试,果然,和那时候一众一言难尽的机器翻译软件一比,完全可以用“效果拔群”来形容,很快就一扫大家对机翻很烂的刻板印象。以前大家宁愿自己辛苦一点查字典,现在挺多同学都养成了先丢进机翻看看大概意思再细读的习惯,这个习惯多半就是从2016年开始的,功臣就是神经网络模型。

2e153cbee0f4cf6963537c3db8975e75.png

03

神经网络中的机器翻译

机器翻译和神经网络有着千丝万缕的关系。神经网络是一种方法,而机器翻译是其中最大的目标应用场景之一,很多神经网络技术的发展,最早就是从做机器翻译任务开始的。

机器翻译任务从机器学习的角度看,是一种生成任务,因为它要输出的结果不是类别编号,而是一串字符序列。在神经网络和深度学习中,做机器翻译任务的模型,也称为Seq2Seq(sequence to sequence)模型。

Seq2Seq模型是一种经典的深度学习模型,通常采用Encoder-Decoder框架。这个框架最早出自2014年的一篇论文《Learning Phrase Representations using RNN Encoder-Decoder forStatistical Machine Translation》,没错,这又是一篇研究机器翻译的经典论文。在这篇论文的基础上,谷歌最终于2016年推出了基于神经网络的机器翻译并大获成功,而这篇论文所提出来的Encoder-Decoder框架,甚至超越了机器翻译领域。

做NLP的同学应该都很熟悉Encoder-Decoder框架,现在做CV的同学也开始在熟悉这个框架。最近深度学习领域有一条重磅消息,在NLP领域称霸多年的Transformer模型,现在正在CV领域大杀特杀。NLP和CV一直是机器学习最热门的两个研究领域,不过长期以来一直有点生殖隔离的意思,现在让Transformer一拳打穿了次元壁,所以好几位大牛都在预测机器学习的大一统模型也许正在呼之欲出。

不过,Transformer最早是用来做什么的?没错,还是做机器翻译。2017年5月,知名的深度学习研究团队FAIR搞出了个新模型,没给起名字,总之是用CNN+Attention来做机器翻译。论文一出,圈内哗然,毕竟在大家的认知中,CNN模型一向是用来处理图像,也就是做CV的,做文本做机器翻译这块,当时主要还是用RNN及其派生的LSTM等模型。RNN有个很大的缺点,就是没法并行训练,非常耗时所以用起来很鸡肋,现在FAIR用并行性好得多的CNN搞出了新模型,一下有种众望所归的感觉。结果另一家知名的研究团队Google Brain不干了,直接走力大飞砖的路线出了一篇爆款论文,叫《AttentionIs All You Need》,相信大家都有所耳闻。Google Brain没有明说,不过我总觉得这个霸气侧漏的标题显然多少有点暗指FAIR画蛇添足的意思:机器翻译还要什么CNN?直接Attention就完事了。在这篇论文里诞生了一款模型,现在我们都耳熟能详了,这就是Transformer。

04

图书推荐

可以这么说,这几年机器翻译是神经网络与深度学习方法发展重要的推动力量,也是主要的应用领域。现在介绍深度学习的书本不少,不过对机器翻译的介绍要么没有,要么只是顺带一提,专门从机器翻译的角度介绍神经网络和深度学习的书真的不太多。如果大家想了解这部分内容,我推荐读一读《神经机器翻译》。这本书当然不是吐槽机器翻译如何发神经,而是NLP大牛菲利普·科恩的一本新书,中文版由国内NLP权威宗成庆老师领衔翻译,可谓是梦幻联动了。机器翻译需要考虑哪些细节问题,神经网络和深度学习又作了哪些努力,这本书都做了相当全面的介绍。

关于作者:

莫凡  ,网名木羊同学。娱乐向机器学习解说选手,《机器学习算法的数学解析与Python实现》作者,前沿技术发展观潮者,擅长高冷技术的“白菜化”解说,微信公众号“睡前机器学习”,个人知乎号“木羊”。

e94ebfdbdc33584f0a269c3d5933938a.png

RECOMMEND

推荐阅读

445cfeb720bc878c645aab3bb8f32852.png

01

神经机器翻译

f75a638bee1cdc209d7af42fd0b12c9d.png

作者:[德]菲利普·科恩(Philipp Koehn)

译者:张家俊 赵阳 宗成庆

NLP大牛菲利普·科恩机器翻译权威之作

中科院自动化所宗成庆老师领衔翻译,多位重量级专家倾情推荐

推荐阅读

深度学习正在彻底改变当今机器翻译系统的构建方式。本书从历史、语言和应用背景等方面介绍了机器翻译和评价所面临的挑战,讲述了自然语言应用中常用的深度学习核心方法。此外,本书还包含使用Python撰写的代码示例,为读者理解和实现自己的机器翻译系统提供了一个实践蓝本。本书内容广泛,涵盖了机器学习技巧、处理各种形式的数据所涉及的问题、模型增强,以及分析和可视化面临的挑战和方法等内容。

176bd3351366b86d77655ecd7c4b544a.gif

65e7b1e71998db61cc499f2aa4703696.png

扫码关注【华章计算机】视频号

每天来听华章哥讲书

b3cad369f332540417bcb14ef469908b.gif

更多精彩回顾

书讯 | 5月书讯(上)|  元宇宙、因果推断、薛定谔方程...你关注的都在这

书讯 | 5月书讯(下)|设计致物系列+少儿编程好书推荐

书单 | 知乎高赞:有哪些你看了以后大呼过瘾的数据分析书?

干货 |用户画像的建立方法和流程,一篇教会你

收藏 | 盘点知识图谱在 5 大智能领域的应用

上新 | Learning Go:你的第一本Go语言学习指南

干货 |诞生50年的C语言为何稳如泰山?

资讯 | 2013年图灵奖得主 Leslie Lamport 专访:程序员需要更多的数学知识

赠书 |【第106期】10本硬核技术书,带你读懂物联网,玩转元宇宙

73c0772c19127898772f1f112d9b5825.gif

5c95762cfe752ab39fda870a06eeb914.gif

点击阅读全文购买

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值