预训练模型的下一步?突破Impossible Triangle

卷友们好,我是rumor。

昨天刷Arxiv看到一篇比较有意思的文章:

Impossible Triangle: What’s Next for Pre-trained Language Models?
https://arxiv.org/abs/2204.06130

文章只有两个作者,来自微软Azure的Cognitive Services Research Group,一作是位叫朱晨光的大佬,不查不知道,一查吓一跳,从此我又多了一位男神。

朱晨光大佬本科就读于清华姚班,据报道本科一年共发了8篇论文[1],随后就读于斯坦福,16年博士毕业后进入微软。目前已经带领着一个几人的Knowledge and Language Team了,顶会也是发到手软:

bf98d2b1bb7cdc5b78188d51b176190a.png

所以这样的大佬亲自写文章,还是值得仔细看看的。

虽然这篇文章目前只有4页,却简明地涵盖了过去的一系列工作,并给出了大佬自己对于未来发展方向的insight

Impossible Triangle

在接触了一些大佬之后,我发现他们其中一个共同的特点是能在更高维度把问题看得更清楚,并且套入到自己的思考框架里,从而清晰地找出解决思路。

在这篇文章中,晨光大佬用「不可能三角」这个经济学理论来形容预训练模型目前的窘境

db3ce0834ae5817f588af671a10be8a0.png

即模型尺寸、少样本效果、精调效果三者不可兼得

目前的情况是,大部分模型只具备上述的一个或两个特性:

  • 预训练模型之所以是划时代的进展,是它具备了中等尺寸(一张卡即可精调)和全任务SOTA的精调效果

  • 而最近两年预训练模型都在往大尺寸发展,也就是具备了少样本效果,但他们的少样本效果依旧比不过中等模型的精调

虽然看到这里好像也没说啥,这就是大家都知道的事情,但巧妙的点是只用这么一个画的不是很fancy的三角,就概括了过去三年的进展。

那接下来大佬开始思考,如果要保持现有的两个角,又要往最后一个角努力,都能干啥?

  • 对于减少模型尺寸,一条典型的故事线就是蒸馏。但其中仍存在两个问题:一是学生模型很难达到原始模型的效果,二是原始的大尺寸模型的推理效率太低

  • 对于提升少样本表现,数据增强是一个好办法,比如用无监督数据做自监督训练、或者基于其他模型生成一些伪样本,但这类方法依旧受限于现有标注样本的多样性,泛化性能提升有限

  • 对于提升精调表现,最近一个比较火的故事是prompt,但这种方式对prompt的设计非常敏感,同时效果也很难超过目前的有监督SOTA

又是一些看似没说啥的话,但这三点就概括了一大堆的motivation。

最后,大佬给出了他的看法,接下来大模型怎样发展才能突破不可能三角?

他认为问题的解决会分为三个阶段:

  1. 在继续提升已有特性的同时向着另一个方向迈进

  2. 在某一个或几个NLP任务上,会出现同时具备三种特性的模型

  3. 在前两个阶段的基础上,在全任务上突破不可能三角

总结

可以看到,目前大佬的思路就是从个别NLP任务上进行突破,这也给很多NLPer提供了一个方向,毕竟现在的文章越来越卷了,动辄几十个作者一起刷几十个任务,用LeCun的建模就是:

6d8c04df52395b894f62fd9abf6c271f.png

当然,不同大佬的思路也是不同的,比如Jeff Dean一直说的Pathways,也是个很好的点。

不管是往哪个方向走,今天这篇文章都给了我很大的启发,不只是说预训练模型的发展,而是怎样去更清晰地看待问题,如果这个事情让我来讲,我可能会画一个繁杂的脑图,写上一篇上万字的综述,而沉浸到细节里,就注定最后给出的insight也是细枝末节。

化繁为简,站在更抽象的层面,才能找到新坑。

参考资料

[1]

朱晨光:一个从不通宵的AI研究员: https://www.163.com/dy/article/G9VB9H430511DPVD.html


欢迎对NLP感兴趣的朋友加入我们的「NLP卷王养成」群,一起学习讨论~

扫码添加微信备注「NLP」即可⬇️

3eb7e7bec75ca0cd4205b55b649737f0.png

550c567b96314e581b0898de665df8d7.png


我是朋克又极客的AI算法小姐姐rumor

北航本硕,NLP算法工程师,谷歌开发者专家

欢迎关注我,带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「我的原创数量也是随着点赞线性增长吗?」f9684efed61af7ecc06a9cab3786dc64.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值