百分点认知智能实验室:如何打造工业级的机器翻译

编者按
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,不同于目前的主流机器翻译,大多是基于神经机器翻译,实现单纯的机器翻译,打造兼具稳定、易用、高效并符合用户需求的工业级翻译产品,要解决很多难题,比如:文档内缩略语如何翻译?小语种低资源翻译问题如何解决?语料如何处理?
在本篇文章中,百分点认知智能实验室基于多年的经验积累,分享了百分点科技在工业级机器翻译领域的技术研究和实践成果。

随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。但各大领域的翻译需求越来越多,翻译要求也越来越高。

  1. 翻译文档越来越多
    据统计,美海军“温森斯”(CG—49)导弹巡洋舰维护手册达23.5吨,仅空军F-16战斗机技术资料约750000页;F-18战斗机的技术资料有500000多页,重达1428.84kg。每天,美军官方和著名的咨询公司每天新发布的装备科技信息相关材料就超过100万页。而这些文档涉及的语种,包括最常用的英文、俄文、日文以及德文、法文、意大利文、韩文等,文档格式包括扫描版/电子版PDF、Word、Excel、PPT等,以及各种格式的图片(包括但不限于png, jpg,bmp, tiff等),甚至手写材料。
  2. 材料内容越来越专
    各大领域的翻译任务包含大量的专有词汇、缩略语,覆盖航天、电子、船舶等各个业务,谷歌、百度等通用翻译引擎无法满足装备科技信息领域内的个性化需求。同时,业务方对翻译的效果质量要求越来越高,以更准确地了解最新的科技信息。
  3. 速度要求越来越高
    海量资料的快速翻译需求,对翻译速度的要求越来越快,以更及时地获取信息,支持科学决策。翻译速度不仅和硬件、软件相关,更和模型算法直接相关。在实际中,需通过模型、算法和工程层面的优化,实现翻译速度能够满足技术参数要求。
  4. 数据安全和信息安全要求不断提升
    不仅需要翻译系统能够在本地化部署、本地化运维,而且需要能在本地自动化加工语料,自动化模型训练、迭代、升级。从而满足整个系统的所有核心环节都能在本地完成,形成语料生产、语料加工、模型训练、模型部署、模型运维的闭环,而不需要相关敏感的业务数据离开本地环境;同时,针对用户自身的特定需求,可以更及时、自动地完成优化和升级,从而提高翻译的效果。
    百分点智能翻译系统正是为了应对以上“多、专、快、高”的紧迫需求而产生的。
    一、机器翻译发展及Transformer介绍
  5. 机器翻译发展
    机器翻译技术在近几十年的发展中经历三个主要阶段,依次是基于规则的机器翻译、基于统计的机器翻译和神经机器翻译。基于规则的机器翻译需要人工书写翻译规则,代价过高,并且伴随翻译失败的可能;基于统计的机器翻译完全由数据驱动机器学习,但用短语拼接翻译的基本思想使长句翻译品质不佳,并且带有先验假设。目前主流的机器翻译方法为神经机器翻译,翻译的知识和参数由神经网络自动学习,避免了传统方法的人工干预模块带来的偏差,而且直接把整个句子转化为向量进行翻译,使得模型的特征表示能力更强。
    在这里插入图片描述

图1.机器翻译的发展
神经机器翻译始于2013年提出的Encoder-Decoder框架,在发展的过程中,大部分模型由RNN结构组成,RNN的序列特性利于自然语言建模的同时也带来无法高效并行化的弊端。2015年Attention概念的提出使得机器翻译的品质大幅度提升,2017年谷歌在此基础上提出的Transformer模型成为当今神经机器翻译模型的基石。

在这里插入图片描述

图2.神经机器翻译的发展
2. Transformer结构
Transformer的本质是一个带有自注意力机制的Encoder-Decoder结构,具体结构如图所示。从整体上看,左半部分为Encoder编码器,右半部分为Decoder解码器。编码器读取源语言句子并编码成固定长度的向量,然后解码器将向量解码并生成对应的目标语言翻译。

在这里插入图片描述

图3.Transformer整体结构
编码端和解码端分别由6层结构相同的EncoderLayer和结构相同的Decoder Layer堆叠而成。Encoder和Decoder之间的连接方式为:Inputs经过各层Encoder Layer作用后的输出序列作为Encoder的最终结果,分别输入各层Decoder Layer。

在这里插入图片描述

图4.Transformer编码端解码端整体结构
具体每个EncoderLayer由2个sub-layers组成,依次为编码器多头自注意力(图左Encoder中的self-attention)、前馈网络(Feed Forward);每个DecoderLaye

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值