「预训练-调优」范式的未来

智源社区

于 2021-04-14 18:30:00 发布

阅读量341

点赞数

文章标签：网络大数据编程语言机器学习人工智能

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/115713875

版权

智源导读：「预训练-调优」的方法，在近几年，对NLP领域带来了颠覆性的影响。然而即使我们使用了包含大量参数的大模型（例如，GPT-3），却仍然存在很多常识和推理上的问题无法解决。也有一些研究工作试图将“逻辑”加入学习框架，从而在推理的任务上获得一定的性能提升，但目前效果还并不显著。

那么，

面对当前大模型遇到的瓶颈式问题，当前的原理是否能够解决？
我们真的只需向这种框架中加入一些新的技术，就可以解决当前遇到的问题吗？
或者说，当前「预训练-调优」的研究路线还是否可行？

对此类问题的思考，也将决定着NLP领域学者未来数年的工作方式。以下是几位知名学者在「智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛」上对这些问题的回答，观点深浅皆有，特别是杨植麟博士的回答提出了一种技术创新的方法论，引人深思。

整理 | 熊宇轩

校对 | 贾伟

刘知远：这取决于未来我们的目标。按照我的理解，所谓的「预训练」是一个通用的学习过程，但是「调优」类似于在大学中选择一个专业，学习特定领域相关的知识。二者的差别与义务教育和专业教育的区别有些类似。

实际上，我认为这种框架仍然是合理的。因为，我们首先还是应该学习一些通用的能力。

但是，我们的预训练模型，当前具备的通用学习的能力，仍然不够强；这些模型，对于没有标注的无监督数据，进行总结归纳的能力，仍然远远不够。这种归纳能力的不足，反过来也会影响模型在特定的专业领域的学习。

因此，我认为当前的技术路线还是合理的，只不过框架中的各个部分仍然没有达到完美的状态，未来仍然存在对模型进行改进的空间。

文继荣：我觉得这种框架是合理的。对于「预训练-调优」范式而言，目前我们认为预训练相当于学习常识，就好比义务教育。对于人类而言，我们在学校学到的知识是十分有限的，而我们对整个世界的理解以及常识，大多来自于日常的生活。我们往往是在日常生活中学习到常识性和逻辑性的知识。

曾经，在我们研究专家系统时，真正困难的地方在于如何引入「常识」。尽管现在的预训练结果与真正的常识还有一定距离，但是通过预训练学习通用知识，进而在专业领域中进行调优，是比较有道理的一条技术路径。

兰艳艳：请问文老师是否相信所有的知识都是包含在我们看见的事物中？这是否意味着我们通过预训练，总是可以从数据中学到这些知识，只不过现在的具体方法还不能完全做到这一点？

文继荣：是的，「预训练-调优」是我们目前想到的一条技术路径。我们都知道引入「常识」是非常重要的，但是真正能够解决该问题的方法仍然有待探究。也许「预训练-调优」就是一种可能有前景的研究思路，在研究过程中，可能会浮现出一些好的结果，如果这条思路最终取得成功，确实是一个很有意义的重大突破。在信息检索领域中，这种预训练模型得到的结果实际上提供了背景模型（Background Model）。

王仲远：从某种程度上说，人工智能技术希望解决的问题是让机器与人类越来越相似，我们希望机器可以像人一样思考，并做出决策。实际上，人在做决策的时候可能会有两种路径。

一种是偏感性的路径，另一种则是偏理性的路径。

就偏感性的路径而言，通常人们会直接得到答案，而并不知晓决策背后的原由。这就好比我们如今使用的深度学习技术，只需要将数据输入给模型就可以直接得到一个结论。

然而，人类在做决策时，往往还会进行理性的思考。理性的思考涉及大量的逻辑推理等过程，我们也希望把知识加入到这个过程中，实现逻辑推理。

在当前的训练范式下，我们会把知识加入预训练中，但是值得探讨的是：这种方式是否合适，它是否是最有效的融入知识的方式？实际上，这一问题还没有得到论证。未来，我们希望机器与人类越来越相似，既有「感性」的一面，也有「理性」的一面。

邓亚峰：我也认为「预训练-调优」的范式是合理的，但可能仅仅这样做还并不能实现通用人工智能。

我们不妨类比一下，将神经网络结构比作人的大脑，大脑与生俱来地具备某种先验结构；在人类成长的过程中，有父母的言传身教，在某种程度上相当于预训练的过程；而之后我们可能会针对某些具体的学科进行学习，这就与调优的过程相类似。

我认为 GPT-3 的工作机制是正确的。但是该模型得到的结果会存在一些很显而易见的错误。

究其原因，如今的神经网络大多欠缺对知识和逻辑的考虑，而人类的思维框架即包含知觉的部分，也包含知识的部分。

在我看来，如果我们继续沿着「预训练-调优」的路径研究下去，如果不改变随机梯度下降等网络的学习模式，很难实现真正的通用人工智能。

杨植麟：在我看来，技术进步的本质是一个组合的过程，我们对以前发展出来的技术做一系列组合，从而创造出新的技术。

这个组合的过程是缓慢的，但是在某些节点上，组合产生的新技术会带来一些质变。

以 GPT 为例，我们可以从该模型中拆解出两个重要的思想：预训练、Transformer。沿着这个路径往下延伸，我们依次拆解出 Transformer、自注意力机制、残差连接、层归一化等思想。再往前追溯，我们用到的基础原型还包括随机梯度下降，以及上世纪九十年代的反向传播算法，七、八十年代那些只有一两层的神经网络……这是一个不断演进的过程。

在遥远的未来，我们所使用的技术框架也许会跟现在使用的技术看起来有很大差别，但也有可能沿用许多内在的思想。

在人工智能技术七十年的发展历程中，从整体上来说，我们是沿着一个「正途」在开展研究，我们会复用一些之前提出技术，而这些技术的积累会产生质变。比如，在 2019 年，预训练模型领域就产生了质变，未来还会存在一些质变的节点。

站在目前的时间点上看，许多研究人员的科研工作是组合式，这些工作可能是目标驱动的组合，也可能是工具驱动的组合。

目前，一种可行的研究方法就是，在大的研究框架中找到最核心的问题，并且试图通过组合演进的方式解决该问题，而不是从头开始设计一种全新的框架。在历史的长河中，往往很少出现这种全新的框架。

举例而言，就人类制造飞机的历史来看，从早期的螺旋桨飞机到喷气式飞机就完成了一种质变。但是，喷气式飞机的原理和子模块的技术都已经存在，喷气式飞机的研发者也是做了一种组合的工作。

在我们所涉足的研究领域中，BERT 和 GPT 都是一种组合式的工作，只不过这些工作的量级有大有小。

在我看来，大多数的研究还是会沿着这种组合演进的路线开展下去。当然，并非一两个团队或者一两个人的努力就可以取得最终的成功，而是在整个研究社区中的同行一起通过量变到质变的方式，自然而然地迈向下一个新的框架。

裘捷中：我认为目前的技术路线是有道理的。我一直信奉，我们生活在一个遵循大数定理的世界中：在研究过程中，我们之所以处于当前的历史方位，是因为有其他人做了大量的尝试，并且发现那些方法行不通；我们现在遵循的学习范式必定有其独到之处。

我十分赞同杨植麟博士的看法，我们现在所使用的技术框架是一代代进化出来的，是很多思想融合的结果。

同时，我也承认 GPT 这种大规模预训练模型可能存在一些不足，当务之急是找出这些框架中的短板。也许，我们在预训练模型的过程中已经学习到了某些常识，而在调优的过程中没有很好地用到这些常识。此时，我们也许可以求助于 P-Tuning 这样的技术。

此外，也可能是预训练文本中已经包含了某些常识的信息，但是由于 Transfomer 或者优化算法的某些限制，导致我们无法在学习中达到最优情况，此时我们也许应该考虑改进模型框架。

再往前推，也许语料库中的常识是不够的。在这种情况下，我们的研究路线就应该是如何在文本中增加更多的常识信息。所以，在我看来，定位核心的问题是比较关键的。