青源LIVE第23期|ACL最佳论文一作许晶晶:机器翻译中的词表学习问题研究

深度学习时代,不同词表的选择也影响着最后模型的效果。字节跳动AI Lab从信息论的角度作为切入点来理解词表,并提出了一种基于最优运输的词表学习方案。

这就是字节跳动火山翻译团队荣获 ACL 2021 最佳论文工作的核心出发点,该研究提出了一种新的词表学习方案 VOLT,在多种翻译任务上取得了优秀的结果。

  • 标题:Vocabulary Learning via Optimal Transport for Neural Machine Translation

  • 作者:许晶晶、周浩、甘纯、郑在翔、李磊

  • 论文地址:https://arxiv.org/pdf/2012.15671.pdf

  • 代码地址:https://github.com/Jingjing-NLP/VOLT

实验结果表明,VOLT的性能在不同场景中均优于广泛使用的词汇,包括WMT-14英语德语和TED多语种翻译。

例如,VOLT在英语和德语方面实现了近70%的词汇量缩减和0.5 BLEU增益。另外,与BPE搜索相比,VOLT大幅缩短词表搜索时间,在英德翻译任务上将搜索时间从384 GPU小时降至为30GPU小时。

智源社区特邀字节跳动AI Lab部门研究员 许晶晶就相关内容作报告分享,欢迎大家交流。

许晶晶,字节跳动公司AI Lab部门研究员。主要研究方向为自然语言处理和机器学习。已在国内外知名学术会议发表多篇论文,曾担任ACL 2021领域主席以及多项顶会审稿人。现致力于探索轻量级深度学习。

主题:机器翻译中的词表学习问题研究

时间:2021年8月20日(周五)16:00~17:00

形式:线上

入会方式:腾讯会议 - ID:259301763

B站直播:https://live.bilibili.com/21484823


扫描如下二维码报名活动

了解更多信息请加入「自然语言处理」交流群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值