卷友们好,我是rumor。
昨天刷Arxiv看到一篇比较有意思的文章:
Impossible Triangle: What’s Next for Pre-trained Language Models?
https://arxiv.org/abs/2204.06130
文章只有两个作者,来自微软Azure的Cognitive Services Research Group,一作是位叫朱晨光的大佬,不查不知道,一查吓一跳,从此我又多了一位男神。
朱晨光大佬本科就读于清华姚班,据报道本科一年共发了8篇论文[1],随后就读于斯坦福,16年博士毕业后进入微软。目前已经带领着一个几人的Knowledge and Language Team了,顶会也是发到手软:
所以这样的大佬亲自写文章,还是值得仔细看看的。
虽然这篇文章目前只有4页,却简明地涵盖了过去的一系列工作,并给出了大佬自己对于未来发展方向的insight。
Impossible Triangle
在接触了一些大佬之后,我发现他们其中一个共同的特点是能在更高维度把问题看得更清楚,并且套入到自己的思考框架里,从而清晰地找出解决思路。
在这篇文章中,晨光大佬用「不可能三角」这个经济学理论来形容预训练模型目前的窘境:
即模型尺寸、少样本效果、精调效果三者不可兼得。
目前的情况是,大部分模型只具备上述的一个或两个特性:
预训练模型之所以是划时代的进展,是它具备了中等尺寸(一张卡即可精调)和全任务SOTA的精调效果
而最近两年预训练模型都在往大尺寸发展,也就是具备了少样本效果,但他们的少样本效果依旧比不过中等模型的精调
虽然看到这里好像也没说啥,这就是大家都知道的事情,但巧妙的点是只用这么一个画的不是很fancy的三角,就概括了过去三年的进展。
那接下来大佬开始思考,如果要保持现有的两个角,又要往最后一个角努力,都能干啥?
对于减少模型尺寸,一条典型的故事线就是蒸馏。但其中仍存在两个问题:一是学生模型很难达到原始模型的效果,二是原始的大尺寸模型的推理效率太低
对于提升少样本表现,数据增强是一个好办法,比如用无监督数据做自监督训练、或者基于其他模型生成一些伪样本,但这类方法依旧受限于现有标注样本的多样性,泛化性能提升有限
对于提升精调表现,最近一个比较火的故事是prompt,但这种方式对prompt的设计非常敏感,同时效果也很难超过目前的有监督SOTA
又是一些看似没说啥的话,但这三点就概括了一大堆的motivation。
最后,大佬给出了他的看法,接下来大模型怎样发展才能突破不可能三角?
他认为问题的解决会分为三个阶段:
在继续提升已有特性的同时向着另一个方向迈进
在某一个或几个NLP任务上,会出现同时具备三种特性的模型
在前两个阶段的基础上,在全任务上突破不可能三角
总结
可以看到,目前大佬的思路就是从个别NLP任务上进行突破,这也给很多NLPer提供了一个方向,毕竟现在的文章越来越卷了,动辄几十个作者一起刷几十个任务,用LeCun的建模就是:
当然,不同大佬的思路也是不同的,比如Jeff Dean一直说的Pathways,也是个很好的点。
不管是往哪个方向走,今天这篇文章都给了我很大的启发,不只是说预训练模型的发展,而是怎样去更清晰地看待问题,如果这个事情让我来讲,我可能会画一个繁杂的脑图,写上一篇上万字的综述,而沉浸到细节里,就注定最后给出的insight也是细枝末节。
化繁为简,站在更抽象的层面,才能找到新坑。
参考资料
[1]
朱晨光:一个从不通宵的AI研究员: https://www.163.com/dy/article/G9VB9H430511DPVD.html
欢迎对NLP感兴趣的朋友加入我们的「NLP卷王养成」群,一起学习讨论~
扫码添加微信备注「NLP」即可⬇️
我是朋克又极客的AI算法小姐姐rumor
北航本硕,NLP算法工程师,谷歌开发者专家
欢迎关注我,带你学习带你肝
一起在人工智能时代旋转跳跃眨巴眼
「我的原创数量也是随着点赞线性增长吗?」