爱奇艺多语言台词机器翻译技术实践

7月3日下午,爱奇艺技术产品团队举办了“i技术会”第16期技术沙龙,本次技术会的主题是“NLP与搜索”。我们邀请到了来自字节跳动、去哪儿和腾讯的技术专家,与爱奇艺技术产品团队共同分享与探讨NLP与搜索结合的魔力。

其中,来自爱奇艺的技术专家张轩玮为大家带来了爱奇艺多语言台词机器翻译技术实践的分享。

福利!关注公众号,在后台回复关键词“NLP”,就可以获得本次i技术会嘉宾分享完整PPT和录播视频。

以下为“爱奇艺多语言台词机器翻译技术实践”分享精华内容,根据【i技术会】现场演讲整理而成。

本次分享的第一部分是爱奇艺多语言台词机器翻译实践开展的相关背景,第二部分是爱奇艺针对多语言台词机器翻译模型的一些探索和优化,最后是该模型在爱奇艺的落地与应用情况

01

爱奇艺多语言台词机器翻译实践的相关背景

2019年6月,爱奇艺正式推出服务全球用户的产品iQIYI App,并通过中台系统为iQIYI App提供全球化运营支持,由此开启了海外市场布局之路。作为影视内容服务商,其中必然涉及大量长视频,而长视频的出海,重要的一环就是台词翻译。

目前,爱奇艺已在多个国家布局,涉及多种语言的台词翻译,主要有泰语、越南语、印尼语、马来语、西班牙语、阿拉伯语等等语言,这就使得多语言翻译成为了迫在眉睫的现实需求。

此外,与通用翻译相比,台词翻译有一些独有的特点如:

(1)台词一般句子较短,上下文信息不足,歧义性大;

(2)很多台词来源于OCR或ASR识别的结果,会有错误,可能影响翻译质量;

(3)在台词对话中往往会涉及很多人物的指代,故而角色名和代词的翻译对于台词翻译来说尤为重要;

(4)部分台词需要结合视频场景信息才能进行语义消歧。

正是爱奇艺海外多国布局的现实需要以及台词翻译的独有特点这两大因素使得台词场景下多语言机器翻译实践成为现实。

02

多语言台词机器翻译模型的探索和优化

1.one-to-many翻译模型优化

首先介绍一下什么是one-to-many模型

One-to-many顾名思义,即通过不同语言翻译之间的参数共享,通过一种模型来达到翻译多种目标语言的目的。

这个模型设计的初衷是节约维护和训练成本。前面已经讲到,目前,爱奇艺已经布局到海外多个国家,这就涉及到多种语言的翻译,如果采用一种语言一个模型的方法,随着目标语言的增多,我们需要训练、部署和维护的模型也会越来越多,导致运营成本的增加。

经调研,我们发现了one-to-many模型,它极大地减轻了模型的训练和部署维护的成本,可以充分利用不同语言之间迁移学习的特点,起到相互促进的作用,从而提高模型效果。

图1是transformer架构,是目前大多数机器翻译模型优化的主流框架,我们也是以此为基础,在上面进行优化。

图1:transformer模型

而针对one-to-many模型,我们借鉴近期大家较为熟悉的预训练模型BERT,设计了一个特定的输入形式。

图2

每个输入的token的表达都是由三种embedding组成,分别是:token embedd

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值