ACL 2021 最佳论文:最优运输理论开启词表学习新纪元

在 8 月 20 日的智源社区青源 LIVE 活动中,来自字节跳动 AI Lab 的许晶晶博士对其团队在 ACL 2021 上摘得最佳论文奖的论文《Vocabulary Learning via Optimal Transport for Neural Machine Translation》进行了解读。在机器翻译任务中,词表的选择影响模型最终的性能。许晶晶博士从信息论的角度入手,提出了一种基于最优运输理论的词表搜索方法。

论文地址:https://arxiv.org/pdf/2012.15671.pdf

代码地址:https://github.com/Jingjing-NLP/VOLT

视频地址:https://hub.baai.ac.cn/live/?room_id=160

主讲人简介

许晶晶,字节跳动公司AI Lab部门研究员。主要研究方向为自然语言处理和机器学习。已在国内外知名学术会议发表多篇论文,曾担任ACL 2021领域主席以及多项顶会审稿人。现致力于探索轻量级深度学习。





讲者:许晶晶

整理:熊宇轩

校对:李梦佳

 

词表在命名实体识别、语义分析、翻译、摘要生成、对话等任务中广为使用。在理解性任务中,我们需要将离散的输入单词表征为连续的向量,此时词表起到了「查找表」的作用。在一些生成任务中,生成式模型的输出是词表的分布,需要进一步将其映射为离散的字符输出。

 

图 1:词表的类型

 

目前,研究人员已经提出了一系列基于字符(char)、词(word)、子词(sub-word)的词表,以及与具体语言无关的基于字节(UTF-8)的词表。其中,现有阶段最广为使用的是基于子词的词表(例如BPE )。大多数现有的词表是由专家根据自己的知识总结的生成方案得到的。那么这些词表是最优的吗?给定一个数据集,我们应该如何得到对于自然语言处理任务最优的词表?

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值