统计机器翻译与神经机器翻译区别_神经网络机器翻译的发展趋势

神经网络机器翻译的发展趋势

作者:Isabella Massardo     编译:TransliaMT

4e4434ec6fa85fb5d5e2d8817ff400e0.png

上个

月,OpenAI 推出了其 GPT-3(生成型预训练变换器-3)的封闭测试版,展示了该模型的潜力。随着参与该项目的人数开始增加,一批经过挑选的投资者、专家和记者在社交媒体上分享了他们的实验成果。

GPT-3 的指导原则很简单,至少在概念上是这样:机器学习算法对从数字化书籍和网络讨论中推算出的万亿字统计模型进行分析。其结果就是流畅的文字,即使从长远来看,软件在遇到复杂的推理时显示它的所有逻辑限制——因为这种软件通常就是这种情况。尽管一些专家测试了 GPT-3 的翻译能力,并且在很小的投入下就获得了令人印象深刻的结果,但我们仍与 Murray Leinster 在《第一次接触》中描述的通用翻译器或其他更受欢迎的科幻小说中发现的神奇装置相去甚远。

因此,提醒一下现实世界中技术的现状,同时对事情的发展情况有个大致的了解,可能很有用。为此,Wordbee 组织了一个由四位专家组成的小组,讨论在不久的将来我们可以从神经网络机器翻译中期待什么。

机器学习和神经网络机器翻译

机器学习(ML)是计算机科学的一个分支,可被视为人工智能的子领域。以简单的方式定义机器学习的特性和应用并不总是可能的,因为应用领域很广泛,而且 ML 的工作方式、技术和工具也不尽相同。

但是,我们感兴趣的问题更为具体,即机器学习如何应用于计算语言学和自然语言编程?

有人可能会说机器学习和神经网络机器翻译(NMT)之间没有太大的区别。机器翻译领域也存在诸如开发机器学习模型、适应现有模型、进行部署以及确保它提供高质量结果等问题。另一方面,机器翻译管理非结构化数据,因此我们需要特定的模型来帮助查找数据集中的结构(模式)。

多年来,语言服务提供商一直试图找到机器翻译的理想用例,并使其适合客户和自己。直到大约五年前,主要讨论的焦点是机器翻译的生产力和后期编辑的有用性。在对这些话题进行了许多基准、学术论文和会议之后,到 2020 年,讨论终于向前迈进了一步。

我们的专家小组一致认为,用于通用神经网络机器翻译的培训数据中有 80% 是有用的。正如 Glovo 研发主管马克西姆•哈利洛夫(Maxim Khalilov)所言,这意味着我们处于一个新时代的风口浪尖,在这个新时代中,机器学习在如何区分好与坏翻译方面正扮演着一个新的重要角色。

质量评估:游戏规则的改变者?

可能会出现一个以质量保证、质量控制和质量评估为基本要素的全新行业模式。顺便说一下,如果这些首字母缩略词让您晕头转向,我们已经在上一篇文章中为您做了介绍。

当谈到 2020 年的质量和机器翻译的话题时,未来几年我们能期待什么呢?

作为机器学习技术,质量评估(QE)算法自动为机器翻译输出分配一个质量指标,无需访问人工生成的参考翻译。该技术本身已经存在了一段时间,但只有少数公司拥有必要的财力和人力资源,能够在生产环境中试验质量评估。Intento Inc. 的全球化与本地化总监 Yuka Nakasone 表示,到2020年,机器翻译系统的质量评估技术将得以大规模实现,我们很可能看到混合 MT-QE 系统的兴起。

对于机器翻译提供商来说,这种发展可能特别有趣。部署机器翻译系统时,通常需要考虑的主要因素是系统、时间、成本和质量。质量评估技术可以让技术提供商尝试在成本和时间之间取得正确平衡的同时利用质量界限。

据 Hiernymus 首席执行官 Paula Reichenberg 所言,质量评估技术的另外两个有趣的用途可能是:

  1. 评估用于训练神经网络机器翻译引擎的数据质量,

  2. 检测用于翻译特定文档的最佳神经网络机器翻译引擎。

这在复杂和高度专业化的领域,如法律和制药领域尤其有趣。谷歌和微软已经在使用这种质量评估技术:这一创新将使质量评估向公众开放。

更紧密的集成和自适应系统

TextShutle 的首席技术官 Samuel Lüubli 强调了另一个有趣的发展,即各种工具(尤其是 CAT 工具)和神经网络机器翻译之间的相互作用,以及翻译记忆库和术语库。目前的集成水平——允许翻译人员对神经网络机器翻译系统的建议进行后期编辑,CAT 是通过 API 与神经网络机器翻译系统相连接的——将会变得更加紧密。

就像 2015 年的统计机器翻译(SMT)一样,现在人们开始讨论自适应神经网络机器翻译系统。得益于自适应技术,神经网络机器翻译系统可以在工作中“学习”,同时在后期编辑过程中不断改进。为此,翻译记忆库必不可少:它们必须相关、精确且质量高。术语库也一样,尽管术语集成对于形态丰富的语言来说可能仍然是一个痛点。

感知语境的机器翻译

传统的机器翻译系统是逐句翻译的,孤立单元的翻译有着明显的局限性。现在的工作是开发文档级机器翻译系统,这样的话在翻译句子时,机器翻译引擎会查看前面和后面的句子。谷歌在这方面已经取得了一些进展。

还有其他潜在趋势正在浮现:如何根据垂直领域和语言对选择神经网络机器翻译引擎?是否需要多种不同的神经网络机器翻译引擎来处理多语言内容?特定市场的神经网络机器翻译引擎超专业化是否会成为可能?最重要的是,如何选择跟随哪些趋势?当然,跟上技术发展的步伐非常重要,但每种新鲜“事物”都需要根据您自己的公司需要解决的问题、解决方案的可扩展性、开放源代码的可用性等等进行评估。

Wordbee 集成了多种机器翻译引擎,随时准备帮助您将技术解决方案融入您的翻译工作流程中。联系我们进行免费咨询。

本文由 Translia 使用 Wordbee 通过 MTPE 完成对文章的编译。如果您在阅读中遇到问题或对文章内容有疑义,请给我们留言。我们会努力为您提供持续的关于 Wordbee 的官方信息。Translia 感谢您一直以来的关注。

END 推荐阅读 d1f8c6ea4bc044872f27567d9694bba4.png翻译业务迁移至云端的五个半优势  e335114289afc49d9e5e55b92485c853.png本地化中的互操作性:隐藏在眼前的好处(第二部分)  17e6a3a6f2cece8dbb9aa9e0d0e8d270.png本地化中的互操作性:概览(第一部分)  4b45d81a606ce3e720fa49e088cca403.gif 6c9dbde1638a4ca58f1632a5263d9779.gif 3cf60f8c83817bac6a8dc91ce365d976.png 6c9dbde1638a4ca58f1632a5263d9779.gif扫码关注我们我就知道你“在看” 25264c232e4a6d68e6d5154f57211d1e.gif
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值