ACL2021最佳论文出炉，来自字节跳动

最新推荐文章于 2025-04-08 15:54:06 发布

算法码上来

最新推荐文章于 2025-04-08 15:54:06 发布

阅读量2.7k

点赞数 1

文章标签：人工智能 java 字节跳动编程语言深度学习

本文链接：https://blog.csdn.net/God_WeiYang/article/details/118502716

版权

❤️点击上方，选择星标或置顶，每天给你送上干货❤️

ACL2021的最佳论文在今天公布了，是来自字节跳动人工智能实验室的「Vocabulary Learning via Optimal Transport for Neural Machine Translation」。

这篇论文经历颇为坎坷，当初投完ICLR2021后，只得到了4，4，3，3的评分（满分10分），大概率是要被拒稿的。后来也进行了rebuttal，但是因为要转投ACL2021，于是就撤稿了。经过反复润色修改，改进方法和实验，最终在ACL2021上获得了高分，并被评为了最佳论文。

「ACL2021论文接收列表：」
https://2021.aclweb.org/program/accept

「论文地址：」
https://arxiv.org/abs/2012.15671

「源码地址：」
https://github.com/Jingjing-NLP/VOLT

字节跳动人工智能实验室今年成果颇丰，此前还开源了业界第一款NLP模型训练和推理全流程加速引擎LightSeq：https://github.com/bytedance/lightseq

还开源了TensorFlow版本的Transformer训练库NeurST：https://github.com/bytedance/neurst

由于两个会议得分相差巨大，知乎上也马上产生了热议，几位作者出来进行了详细的解读，下面搬运一下两位原作者的回答。

「问题链接：」
https://www.zhihu.com/question/470224094

知乎用户@WAZWY

https://www.zhihu.com/question/470224094/answer/1980448588

我是这个paper的作者之一，刚刚在公司的群里有同事把这个问题链接发给我，我震惊于居然有人这么关注我们的paper，手速这么快，非常感谢，代码还在整理中，整理完之后欢迎大家使用，希望大家都能尝试一下VOLT，肯定还是有很多不足的，也欢迎给我们多提意见。

首先祝贺一作@许晶晶，非常不容易！！！

其次回答这个问题：关于从ICLR到ACL的转投，当时情况是这样的，我们在投ICLR的时候，花了太多时间在实验上，在writing上花的时间很不够，整个paper显地平铺直叙，Intuition没有说出来，且有部分重要的实验没有补充。结果大家也看到了，我觉得这是一个重要的lesson，也欢迎大家对比我们两个版本的论文。。。

Take Away：但行好事，莫问前程。还是应该好好地把手上工作360度全方位地做好，做扎实，而不是找到一个合适的ddl就去submit，现在arxiv这么方便，做到自己满意挂arxiv即可。

PS：为什么撤稿ICLR

这个问题问地不准确，我们当时其实是做了rebuttal的，ICLR的reviewer给了非常好的建议，我们很尊重也都吸收了。当时ACL有政策ICLR不在规定时间内撤稿不能投ACL，因为open review也违反ACL的规则。我们当时特地写信问了PC确认过，就撤稿了。不过后来ACL非常人性化地做了政策上的调整，这是后话了。

PSS：欢迎大家关注我们另外一篇被ICLR拒稿，然后也被ACL高分录用的paper：GLAT：Glancing Transformer for Non-Autoregressive Neural Machine Translation。当时ICLR submission在此：Non-iterative Parallel Text Generation via Glancing TransformerGLAT这个paper也是很自信，也是有点RUSH，导致写地不好。实际上效果非常好，

GLAT在我们字节跳动内部火山翻译已经上线了，Tiktok上的部分翻译流量就是GLAT serve的。数据越大，GLAT的效果越好，我们用GLAT参加了今年WMT翻译评测，大语种德语->英语（受限），以及英语->德语（非受限）的比赛中，GLAT在两个方向都拿了BLEU score的第一，充分说明并行（非自回归）生成模型未必比自回归模型差，甚至有可能更好，欢迎大家关注后续！

=======================

一眨眼就5个回答后的补充：我个人非常不同意上面的匿名回答”说明无论什么工作peer review就是摸彩票“，两次审稿的review质量都非常高，说review就是摸彩票的回答一看就是没有读过论文和review，有点不负责任且误导大众，使得一些junior的同学对投稿有错误的认知！希望稍微读一下论文。

知乎用户@许晶晶

https://www.zhihu.com/question/470224094/answer/1980633745

感谢大家对此工作的关注，我是本工作的作者之一许晶晶，也是一名普通的自然语言处理圈内吃瓜人士，只是没想到这次吃到了自己的瓜orz。这里想跟大家简单分享以下我对这个问题的回答以及在这次投稿中我学到的经验和教训。

第一，我学到的最重要教训是一定要把东西写清楚。有一说一，我们ICLR那篇工作确实写的不好。评审的反馈主要在以下几个方面：实验做的不够充分，方法介绍的不够清楚，动机也缺乏直接证据。后来的这几点，我们在ACL版本都做了大量的改进。我们补充了很多后续实验，写作也推倒重来，一遍遍推敲逻辑是否合理，实验是不是严谨和充分等等，整个过程是很痛苦的。所以后来我们得到ACL的评审认可的时候非常激动，毕竟投入了很多心血的工作终于得到了回报。

第二，投稿不要太匆忙。我们当时工作做完之后，觉得还挺有趣的，为了赶上ICLR的截止日期，写的比较匆忙，存在各种问题，结果就被ICLR的审稿人教做人了。这次投稿之后我学到的一点是准备充分再投，不然会给评审带来不必要的压力以及被评审分分钟教做人。

第三，负面意见不是否定，而是进步的重要来源。其实有很多高分论文之前被拒的先例，比如最佳论文 Lottery Ticket假说，pre-training鼻祖ELMO，LayerNorm，KD等等。我这里举这些例子不是想说我们的工作可以和他们比肩（当然我们也想作出能够真正有用的工作，这些工作一直是我们的榜样），而是想让大家可以客观的看待这个问题。可能很多人会认为负面意见是对工作的否定，其实换个角度，负面意见也是让我们进步的重要力量～虽然这次被大家谈论压力很大，但是我们也很开心可以让大家思考负面意见这个问题。当大家的论文被拒的时候，想一想Hinton的论文都被拒过稿，是不是会变得更加自信一些!

第四：NLP会议的论文不一定比ML的会议论文差。有很多优秀的论文在NLP的会议上也拿到了很高的收益，比如BERT，ELMO等等。ML的会议上也有一些被遗忘的工作。最近确实各大会议的论文数量变得越来越多，有一些很拉垮的论文被录用，但是另一方面来看，好的paper也变的更多了。NLP的会议对NLP更关注，ML的会议对算法更关注。我们当时做的是词表问题研究，可能对于ML的人是个小问题，但是对于NLP领域来说，确实个每天都在用的东西，可能也会对我们工作更认可一些。

最后，打个小小的广告，我们这个工作研究了词表学习的问题，也发现了一些有意思的结论，我们打算近期把代码整理开源出来，欢迎大家到时候试用～某大佬说过研究是一个长周期的事情，无论短期拿到多少荣誉，重要的是做的东西能不能留下来。我们也非常希望可以做出这种工作～

如果大家有任何对该工作的意见和建议，或者对修改论文上的困惑，也欢迎加我微信号一起聊聊：xujingjingpku

最后辟谣一下另一篇关于NAS的问题，我们当时NAS的工作最早投了NeurIPS，投稿时间是2020年5月27号，没中后来投了ICLR，最近被接受。without training那篇放在arxiv 的时间是2020年6月8号，所以严格意义上来说是同期工作哈～

- END -

我是godweiyang，华东师范大学计算机系本硕专业第一，字节跳动AI Lab NLP算法工程师，秋招斩获上海三家互联网大厂ssp offer，主要研究方向为机器翻译、句法分析、模型压缩与加速。最大特点就是脾气好、有耐心，有任何问题都可以随时咨询我，不管是技术上的还是生活上的。

公众号后台回复【内推】

可以通过我的内推码投递简历，加我微信还能随时查进度、咨询问题。

公众号后台回复【加群】

可以进我的技术交流群和内推群。