观点 | 朱靖波:辅助翻译技术需「以人为本」

观点 | 朱靖波:辅助翻译技术需「以人为本」

 

2020-04-20 00:11:50

 

观点 | 朱靖波:辅助翻译技术需「以人为本」

 

编者按:朱靖波教授是小牛翻译创始人、东北大学计算机学院教授,为国内外著名的机器翻译学者。在本文中,朱靖波教授反思了当前机器翻译技术所带来的“译后编辑”模式(即人工翻译过程变成纠错校对后编辑过程)的不足之处,并提出机器翻译研究应尝试开发“以人为本”的辅助翻译技术。

 

当前,机器翻译技术大多是从技术本身出发,考虑的视角一般是普通人,但却忽略了对机器翻译有较强需求的人工翻译人员的需求,导致译员在借助机器翻译进行译后编辑过程中,存在一系列矛盾之处。“以人为本”的辅助翻译技术,即从译员的角度考虑他们真正需要哪些帮助。这种观点是一种研发视角的思想变革。

 

作者 | 朱靖波编辑 | 贾 伟

 

自从上个世纪四十年代计算机诞生之时,机器翻译就成为大家首先想到的计算机应用之一,帮助解决人工翻译代价高、效率低的问题。机器翻译技术经过几十年的发展,翻译能力越来越强,从基于规则的方法、统计机器翻译技术到现在主流的神经机器翻译技术,对人工翻译的“降本提效”方面帮助越来越大。前一段时间甚至引发机器翻译代替人工翻译的争论,经过这两年的讨论,大家各自心里都有自己的评判,至少从原先的对立性观点,慢慢转变成为共存性观点。我写本小文的目的不是为了讨论这个问题,而是想分享一下我对机器翻译如何帮助人工翻译的一些想法。

 

利用机器翻译帮助人工翻译,通常称之为辅助翻译技术(CAT),也可以叫作机助人译。也有人在研究人助机译技术,这个不是本文讨论的重点,但我觉得两者可以有机融合,相互促进,共同受益,也是一个有趣的话题。

 

回到传统辅助翻译技术话题,暂时抛开不讨论翻译记忆技术(Translation Memory),基本思想是保留之前翻译好的数据,采用检索的技术,避免重复翻译的工作,对于经常翻译特定任务的人工翻译来说,帮助是挺大的,比如翻译汽车手册,不同版本的手册重复度可能达到60%以上,可以大大降低人工翻译代价。翻译记忆的技术充分发挥了计算机的存储检索优势,最大的问题就是检索匹配过程比较严格,翻译记忆库的覆盖度大小决定了使用效果,特别是初期还没有大规模的翻译记忆库的时候。

 

目前很自然想到的机器翻译辅助人工翻译的应用模式是译后编辑,基本方法非常简单,人工对机器翻译结果进行纠错校对和后编辑。从理论上来说,如果机器翻译输出的译文质量高,可以大大降低人工翻译后编辑的代价。换句话说,对人工翻译的帮助效果完全依赖于机器翻译的译文质量好坏。从实际应用来看,在很多特定领域的翻译任务中,机器翻译的译文质量没有达到人工译员的期望,因为很多时候机器翻译系统的构建是通过通用领域双语数据构建的,当然基于特定领域的双语数据构建的机器翻译系统,译文翻译品质有可能提升10%甚至更高,这样的话,对人工翻译的帮助会更大。

 

机器翻译的表现有点不同于人工翻译,比如在翻译一篇文章的时候,经常会出现有些句子翻译很好,有些句子翻译质量不好。当人工翻译看到一篇混合翻译质量好与不好的译文,也会大大降低人工译员对机器翻译的好感。所以从应用角度来看,如何对机器翻译译文质量自动评价,比如用不同颜色标注不同质量的译文句子,人工译员可以选择高质量译文句子进行后编辑,忽略质量不好的译文句子,也是一种可以考虑的选择。

 

译后编辑工作模式的另一个问题是改变了人工译员的翻译习惯,将人工翻译过程变成纠错校对后编辑过程。严格上来说,这是一个弊端,对于不同年龄的译员来说,接受度可能是不一样的,也许年轻的译员接受度会好一些,对于资深译员来说,接受度会差很多。另外还有一点,机器翻译的译文就算正确,由于翻译是一个具有艺术性的工作,每个译员也许拥有不同的翻译风格,涉及到用词和句子结构选择,因为一个句子实际上会存在很多种不同的正确翻译结果,所以有信达雅三个层次的翻译水平。特别是针对一些高水平翻译来说,不是简单译文能够准确表达原文意思就可以的,比如诗歌翻译需要讲究境界。我猜想高水平译员对于翻译也有不同的态度,对于译文的质量要求也不同,所以完全改变他们的翻译习惯,缺乏参与性,只是简单纠错校对工作,也会让他们大大降低使用机器翻译的兴趣。

 

机器翻译还面临一个更大的实际问题,因为机器翻译系统都是事先训练好的,目前缺乏非常有效的强大反馈学习能力,比如译员修改了机器翻译译文错误,下次翻译的时候,机器翻译还会犯同样的错误,当然可以引入添加用户术语词典来优化机器翻译品质,但这个能力非常有限,主要能力只能体现在术语翻译本身,对于句子结构翻译错误、省略翻译错误、重复翻译和漏译等问题无效。所以如何让机器翻译能够自动学习译员的纠错信息来优化翻译品质,这个一个非常值得研究的课题。

 

前面提到不同人工译员的译文风格可能会有所不同,这就导致要求所有译员基于同一种译文风格(同一套机器翻译的译文风格)进行修改后编辑,有时候也是非常痛苦的事情。曾有人提出一个问题,机器翻译能否通过自学习机制,让自动翻译结果的译文风格慢慢吻合使用者(译员)的译文风格呢?这个也是非常有趣的话题,也许值得进一步研究。

 

除了译后编辑工作模式外,机器翻译还有另外一种方法来帮助人工翻译,我们称之为交互式机器翻译。主要动机是希望尽量不改变人工翻译习惯来使用机器翻译服务。举个简单例子,人工翻译一个长句子的时候,比如从左到右翻译,当人工翻译一部分片段的时候,将人工翻译的(部分)译文作为约束条件作为输入,要求机器翻译结果保持人工翻译结果前提下,给出其它未翻译部分的译文。当然交互式机器翻译的实现方法可能还有很多,基本思想就是充分尊重人工翻译结果的前提下,尽可能提供机器翻译帮助。从理论上来说是非常有趣的,但其中涉及到操作模式的用户体验问题,再加上每个人工翻译过程是否严格遵循从左到右翻译等等,如何设计一个良好的交互式机器翻译用户体验,好像不是非常容易。

 

直觉上来说,译后编辑工作模式可以作为交互式机器翻译的特例,相对来说,一种具有良好用户体验的交互式工作模式容易被译员所接受。其实对于译员来说,翻译水平也有高低,对于辅助翻译工具的要求也有不同,简单打个比方,就算机器翻译给出一个译文,如何判断这个译文质量好话,也是一个挑战。如果译员认为机器翻译译文质量好,也许可以采纳,否则就拒绝,前提是他能够准确判断质量好坏。另外对于译员来说,有时候需要更多的翻译辅助能力,比如查找一些更好的单词译文、短语译文和译文结构选择,也许希望推荐一个高质量的例句等等,总之,除了机器翻译技术本身,交互式机器翻译的关键在于如何设计一个用户体验良好的交互模式。

 

其实如何评价机器翻译对人工翻译的作用,这个也是不太容易回答的问题。是不是能够提供质量好的译文,就说明有帮助呢?好像也不一定。两个译员可能对机器翻译的辅助翻译能力也有不同的期望和需求,这一点不能简单从机器翻译技术好坏角度来分析,甚至有可能因人而异,这个就不容易讨论清楚了。总之绝对没有那么简单的说,机器翻译品质提高了,对人工翻译的帮助就更大了。这个观点好像是对的,也好像不对,感觉有点怪怪的。

 

有时候我就想到每天回家陪孩子学习。每个孩子的学习能力和基础是不一样的。我们可能将小孩找补习班,假定补习班老师水平是没有问题的,如果简单灌鸭式或者不因人而异,补习的效果不太容易达到预期的效果。从这个角度来说,我有个想法,是否存在一种“以人为本”的辅助翻译技术?机器翻译能够帮助人工翻译,这一点大家都不会有太多疑问,关键是如何帮助,如何实现更好的辅助翻译过程?

 

目前我们研究译后编辑和交互式工作模式,大多时候都是从技术本身出发考虑更多,我们也许应该多问问译员,他们需要哪些帮助,体现以人为本的辅助翻译能力。举个例子,有些译员在翻译一篇文章的时候,如果事先提供一篇机器翻译译文,先阅读一下,快速了解原文的内容,就算后续没有采用译后编辑和交互式机器翻译模式,也可能会提高翻译效率,降低翻译代价,这个也是可能的。毕竟人的精力是有限的,连续工作一天的人工翻译工作,也会非常疲劳,有了机器翻译译文作为参考,也许可以降低工作强度,减少疲劳。

 

问题是如何体现“以人为本”呢?机器翻译结果作为参考译文,还是作为初稿译文,还是作为候选译文,提供给译员呢?还是说机器翻译作为一个辅助工具,译员需要的时候可以激活使用,也可以不激活。上面提到的,也许译员有些时候需要查单词帮助,有些时候需要查相似句子译文作参考。如果不是为了快速翻译赚钱目的,作为一个职业译员来说,肯定不愿意简单充当一个帮助别人修改译文的角色,这个别人在这里就是机器翻译。也许人工译员对机器翻译结果还有一个信任度的问题。

 

目前从事人工翻译的译员也许不止几百万乃至几千万,所需要翻译的资料是海量的,人工翻译的代价比较高,降低成本提高效率,肯定是非常有价值的。但最大的问题是机器翻译译文无法保证完全正确,只有通过人工译员校对才有可能。所以如何以人为本辅助翻译,还是机助人译,如何让人工译员能够更好受益于机器翻译,还存在大量挑战性问题等待深入研究。一旦取得新的突破,理论价值和应用价值值得大家期待!

 

 

朱靖波教授:

观点 | 朱靖波:辅助翻译技术需「以人为本」

朱靖波博士,小牛翻译创始人、东北大学计算机学院教授、博士生导师、辽宁省语言智能技术创新中心主任、讯飞AI大学首批特聘教授、中国中文信息学会常务理事。曾入选教育部新世纪优秀人才计划和辽宁省百人层次人才计划。1992年开始从事语言分析和机器翻译理论研究工作,发表了200多篇研究论文和一本清华大学出版的专著《自然语言理解》。

曾在香港城市大学和美国南加州大学USC/ISI做过访问学者,师从前国际计算语言学学会ACL主席、前国际机器翻译学会主席、Google翻译创始人Franz Joseph Och的博士后导师Prof. Eduard Hovy。主持研制的机器翻译开源系统NiuTrans,免费共享给全球70多个国家3000多个研究机构,2016年荣获国内自然语言处理领域最高科技奖—钱伟长中文信息处理科学技术一等奖。拥有20多项国内和美国发明专利,研究成果多次获得辽宁省科学技术一等和二等奖。主持研制的小牛翻译支持近200种语言互译能力,全球唯一覆盖一带一路和联合国所有会员国官方语言的机器翻译系统,为科大讯飞、金山、小米、华为、国家知识产权局等上百家企事业单位提供机器翻译技术支持与服务。

深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值