预训练模型的下一步？突破Impossible Triangle

最新推荐文章于 2023-01-01 20:04:11 发布

李rumor

最新推荐文章于 2023-01-01 20:04:11 发布

阅读量2.6k

点赞数

文章标签：算法人工智能 java 机器学习深度学习

本文链接：https://blog.csdn.net/m0_37310036/article/details/124207271

版权

卷友们好，我是rumor。

昨天刷Arxiv看到一篇比较有意思的文章：

Impossible Triangle: What’s Next for Pre-trained Language Models?
https://arxiv.org/abs/2204.06130

文章只有两个作者，来自微软Azure的Cognitive Services Research Group，一作是位叫朱晨光的大佬，不查不知道，一查吓一跳，从此我又多了一位男神。

朱晨光大佬本科就读于清华姚班，据报道本科一年共发了8篇论文^[1]，随后就读于斯坦福，16年博士毕业后进入微软。目前已经带领着一个几人的Knowledge and Language Team了，顶会也是发到手软：

所以这样的大佬亲自写文章，还是值得仔细看看的。

虽然这篇文章目前只有4页，却简明地涵盖了过去的一系列工作，并给出了大佬自己对于未来发展方向的insight。

Impossible Triangle

在接触了一些大佬之后，我发现他们其中一个共同的特点是能在更高维度把问题看得更清楚，并且套入到自己的思考框架里，从而清晰地找出解决思路。

在这篇文章中，晨光大佬用「不可能三角」这个经济学理论来形容预训练模型目前的窘境：

即模型尺寸、少样本效果、精调效果三者不可兼得。

目前的情况是，大部分模型只具备上述的一个或两个特性：

虽然看到这里好像也没说啥，这就是大家都知道的事情，但巧妙的点是只用这么一个画的不是很fancy的三角，就概括了过去三年的进展。

那接下来大佬开始思考，如果要保持现有的两个角，又要往最后一个角努力，都能干啥？

对于减少模型尺寸，一条典型的故事线就是蒸馏。但其中仍存在两个问题：一是学生模型很难达到原始模型的效果，二是原始的大尺寸模型的推理效率太低
对于提升少样本表现，数据增强是一个好办法，比如用无监督数据做自监督训练、或者基于其他模型生成一些伪样本，但这类方法依旧受限于现有标注样本的多样性，泛化性能提升有限
对于提升精调表现，最近一个比较火的故事是prompt，但这种方式对prompt的设计非常敏感，同时效果也很难超过目前的有监督SOTA

又是一些看似没说啥的话，但这三点就概括了一大堆的motivation。

最后，大佬给出了他的看法，接下来大模型怎样发展才能突破不可能三角？

他认为问题的解决会分为三个阶段：