深度学习时代,不同词表的选择也影响着最后模型的效果。字节跳动AI Lab从信息论的角度作为切入点来理解词表,并提出了一种基于最优运输的词表学习方案。
这就是字节跳动火山翻译团队荣获 ACL 2021 最佳论文工作的核心出发点,该研究提出了一种新的词表学习方案 VOLT,在多种翻译任务上取得了优秀的结果。
标题:Vocabulary Learning via Optimal Transport for Neural Machine Translation
作者:许晶晶、周浩、甘纯、郑在翔、李磊
论文地址:https://arxiv.org/pdf/2012.15671.pdf
代码地址:https://github.com/Jingjing-NLP/VOLT
实验结果表明,VOLT的性能在不同场景中均优于广泛使用的词汇,包括WMT-14英语德语和TED多语种翻译。
例如,VOLT在英语和德语方面实现了近70%的词汇量缩减和0.5 BLEU增益。另外,与BPE搜索相比,VOLT大幅缩短词表搜索时间,在英德翻译任务上将搜索时间从384 GPU小时降至为30GPU小时。
智源社区特邀字节跳动AI Lab部门研究员 许晶晶就相关内容作报告分享,欢迎大家交流。
许晶晶,字节跳动公司AI Lab部门研究员。主要研究方向为自然语言处理和机器学习。已在国内外知名学术会议发表多篇论文,曾担任ACL 2021领域主席以及多项顶会审稿人。现致力于探索轻量级深度学习。
主题:机器翻译中的词表学习问题研究
时间:2021年8月20日(周五)16:00~17:00
形式:线上
入会方式:腾讯会议 - ID:259301763
B站直播:https://live.bilibili.com/21484823
扫描如下二维码报名活动
了解更多信息请加入「自然语言处理」交流群