飞桨博士会第五期回顾:机器同传进展与展望


飞桨博士会第五期沙龙于10月26日在百度大厦举办,来自机器学习、自然语言处理等研究方向的博士齐聚西二旗进行交流。

本期技术沙龙的主讲嘉宾为百度人工智能委员会主席何中军博士,主讲《机器同传进展与展望》,围绕机器同传的背景介绍、面临挑战、前沿进展和未来展望进行分享。

同声传译最早出现于1919年巴黎和会,是指译员在不打断讲话者讲话的情况下,不间断地将内容口译给听众的一种翻译方式,同声传译员通过专用设备提供即时翻译,这种方式适用于大型研讨会、国际会议,通常由两到三名译员轮换进行。

当前,国际会议口译员协会(AIIC)的会员全球仅有3000余人,中国汉英译员会员仅有50多人。而据不完全统计,仅中国每年就有超过10000场会议对同声传译有需求。在这种背景中,人们逐步探索使用机器进行同声传译的技术。

何中军博士结合百度在此领域最新研究成果,介绍了语音识别容错、可控时延翻译模型、上下文感知的同传模型、语篇翻译、端到端模型等前沿进展。

何中军博士认为机器进行同声传译主要面临三个挑战:技术、数据和评价。技术方面,机器同传可能会因受噪声影响出现识别错误、断句不准的问题。同时,机器同传需平衡高准确与低时延的矛盾、保证语篇连贯。数据方面,比照语音和翻译数据量,真实场景中同声传译数据仅几十-几百小时,数据量比较有限。评价方面,同声传译保证内容实时传播,通常遵循顺句驱动、合理简约的原则,现有的评价标准无法准确的衡量同传系统的性能。

 

机器同传的前沿进展部分,何中军博士结合百度在此领域的最新研究成果,介绍了识别容错、可控时延翻译模型、上下文感知的同传模型、语篇翻译、端到端模型等前沿进展。

 

可控时延翻译模型,具备一定的预测功能。上下文感知的同传模型,从人类译员获得灵感,通过控制语义单元粒度实现翻译质量和时延的均衡,使用预训练模型ERNIE识别语义单元。语篇翻译模型提出了两步解码策略,结合强化学习进行修正,提升了译文的流畅度和一致性。

 

当前机器同传系统主要是“流水线”框架,A语言输入后经过语音识别、翻译、语音合成技术,输出为B语言。与流水线框架不同,端到端模型则是将语音直接转换为目标语言的文本或者语音。受限于训练数据的不足,端到端模型效果还未超过流水线模型。针对这一问题,百度提出了基于知识蒸馏的端到端模型,将文本翻译模型作为教师模型,语音翻译模型作为学生模型,用文本模型教语音模型,提升语音翻译模型的翻译质量。

 

未来,机器同传会在模型、数据、评价三方面不断优化,即研究高鲁棒低时延同传模型、建设大规模面向真实场景的同传数据、研究面向同传的评价体系和标准。在数据建设方面,百度发布了首个面向真实演讲场景的中英同传数据集(http://ai.baidu.com/broad),并与全国机器翻译大会合作举行了首届中英语音翻译评测,促进相关技术发展。

 

百度机器同传基于飞桨(PaddlePaddle)开发。飞桨平台搭载的 Transformer模型,实现了多机多卡并行训练,相比Tensorflow训练速度提升了150%。

 

PaddleNLP是工业级中文NLP工具与预训练模型集,将自然语言处理领域的多种模型用一套共享骨架代码实现。PaddleNLP提供依托于百度百亿级大数据的预训练模型,能够极大地方便NLP研究者和工程师快速应用。使用者可以用PaddleNLP快速实现文本分类、文本匹配、序列标注、阅读理解、智能对话等NLP任务的组网、建模和部署,而且可以直接使用百度开源工业级预训练模型进行快速应用。

 

百度NLP开源工具集主页地址:

nlp.baidu.com/homepage/nlptools

百度NLP开源工具集GitHub地址:

github.com/PaddlePaddle/models/tree/develop/PaddleNLP

进入提问环节,现场博士们踊跃提问,交流氛围热烈。随后,每位博士就自身的研究领域和工作行业领域进行自我介绍。

同时,每位参会者都收到主办方赠送的Tesla V100 GPU算力卡,现场运营同学也向各位演示激活算力卡的操作,详情可参见:

https://mp.weixin.qq.com/s/BKG4VTeAite_1ZLmPZ4ggA

 

至此,本期飞桨博士会线下活动圆满落幕,欢迎更多博士加入飞桨博士会。

 

本期飞桨博士会PPT获取链接:

https://pan.baidu.com/s/1C9AgDdp1fdLhsFWNtIjHRQ  密码:nbxe

 

当前飞桨博士会线下技术沙龙每月月底举办,下一期将于11月30日在百度大厦举办,主讲议题和议程将于11月中旬会飞桨PaddlePaddle公众号上发布,请各位留意,欢迎感兴趣的博士朋友们点击以下链接或阅读原文预先报名,锁定入场席位:

https://iwenjuan.baidu.com/?code=sd567h

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值