「预训练-调优」范式的未来

智源导读:「预训练-调优」的方法,在近几年,对NLP领域带来了颠覆性的影响。然而即使我们使用了包含大量参数的大模型(例如,GPT-3),却仍然存在很多常识和推理上的问题无法解决。也有一些研究工作试图将“逻辑”加入学习框架,从而在推理的任务上获得一定的性能提升,但目前效果还并不显著。

那么,

  • 面对当前大模型遇到的瓶颈式问题,当前的原理是否能够解决?

  • 我们真的只需向这种框架中加入一些新的技术,就可以解决当前遇到的问题吗?

  • 或者说,当前「预训练-调优」的研究路线还是否可行?

对此类问题的思考,也将决定着NLP领域学者未来数年的工作方式。以下是几位知名学者在「智源悟道1.0 AI研究成果发布会 暨大规模预训练模型交流论坛」上对这些问题的回答,观点深浅皆有,特别是杨植麟博士的回答提出了一种技术创新的方法论,引人深思。

整理 | 熊宇轩

校对 | 贾   伟

刘知远:这取决于未来我们的目标。按照我的理解,所谓的「预训练」是一个通用的学习过程,但是「调优」类似于在大学中选择一个专业,学习特定领域相关的知识。二者的差别与义务教育和专业教育的区别有些类似。

实际上,我认为这种框架仍然是合理的。因为,我们首先还是应该学习一些通用的能力。

但是,我们的预训练模型,当前具备的通用学习的能力,仍然不够强;这些模型,对于没有标注的无监督数据,进行总结归纳的能力,仍然远远不够。这种归纳能力的不足,反过来也会影响模型在特定的专业领域的学习。

因此,我认为当前的技术路线还是合理的,只不过框架中的各个部分仍然没有达到完美的状态,未来仍然存在对模型进行改进的空间。

 

文继荣:我觉得这种框架是合理的。对于「预训练-调优」范式而言,目前我们认为预训练相当于学习常识,就好比义务教育。对于人类而言,我们在学校学到的知识是十分有限的,而我们对整个世界的理解以及常识,大多来自于日常的生活。我们往往是在日常生活中学习到常识性和逻辑性的知识。

曾经,在我们研究专家系统时,真正困难的地方在于如何引入「常识」。尽管现在的预训练结果与真正的常识还有一定距离,但是通过预训练学习通用知识,进而在专业领域中进行调优,是比较有道理的一条技术路径。

兰艳艳:请问文老师是否相信所有的知识都是包含在我们看见的事物中?这是否意味着我们通过预训练,总是可以从数据中学到这些知识,只不过现在的具体方法还不能完全做到这一点?

文继荣:是的,「预训练-调优」是我们目前想到的一条技术路径。我们都知道引入「常识」是非常重要的,但是真正能够解决该问题的方法仍然有待探究。也许「预训练-调优」就是一种可能有前景的研究思路,在研究过程中,可能会浮现出一些好的结果,如果这条思路最终取得成功,确实是一个很有意义的重大突破。在信息检索领域中,这种预训练模型得到的结果实际上提供了背景模型(Background Model)。

 

王仲远:从某种程度上说,人工智能技术希望解决的问题是让机器与人类越来越相似,我们希望机器可以像人一样思考,并做出决策。实际上,人在做决策的时候可能会有两种路径。

一种是偏感性的路径,另一种则是偏理性的路径。

就偏感性的路径而言,通常人们会直接得到答案,而并不知晓决策背后的原由。这就好比我们如今使用的深度学习技术,只需要将数据输入给模型就可以直接得到一个结论。

 

然而,人类在做决策时,往往还会进行理性的思考。理性的思考涉及大量的逻辑推理等过程,我们也希望把知识加入到这个过程中,实现逻辑推理。

在当前的训练范式下,我们会把知识加入预训练中,但是值得探讨的是:这种方式是否合适,它是否是最有效的融入知识的方式?实际上,这一问题还没有得到论证。未来,我们希望机器与人类越来越相似,既有「感性」的一面,也有「理性」的一面。

 

邓亚峰:我也认为「预训练-调优」的范式是合理的,但可能仅仅这样做还并不能实现通用人工智能。

我们不妨类比一下,将神经网络结构比作人的大脑,大脑与生俱来地具备某种先验结构;在人类成长的过程中,有父母的言传身教,在某种程度上相当于预训练的过程;而之后我们可能会针对某些具体的学科进行学习,这就与调优的过程相类似。

 

我认为 GPT-3 的工作机制是正确的。但是该模型得到的结果会存在一些很显而易见的错误。

究其原因,如今的神经网络大多欠缺对知识和逻辑的考虑,而人类的思维框架即包含知觉的部分,也包含知识的部分。

在我看来,如果我们继续沿着「预训练-调优」的路径研究下去,如果不改变随机梯度下降等网络的学习模式,很难实现真正的通用人工智能。

 

杨植麟:在我看来,技术进步的本质是一个组合的过程,我们对以前发展出来的技术做一系列组合,从而创造出新的技术。

这个组合的过程是缓慢的,但是在某些节点上,组合产生的新技术会带来一些质变。

以 GPT 为例,我们可以从该模型中拆解出两个重要的思想:预训练、Transformer。沿着这个路径往下延伸,我们依次拆解出 Transformer、自注意力机制、残差连接、层归一化等思想。再往前追溯,我们用到的基础原型还包括随机梯度下降,以及上世纪九十年代的反向传播算法,七、八十年代那些只有一两层的神经网络……这是一个不断演进的过程。

 

在遥远的未来,我们所使用的技术框架也许会跟现在使用的技术看起来有很大差别,但也有可能沿用许多内在的思想。

在人工智能技术七十年的发展历程中,从整体上来说,我们是沿着一个「正途」在开展研究,我们会复用一些之前提出技术,而这些技术的积累会产生质变。比如,在 2019 年,预训练模型领域就产生了质变,未来还会存在一些质变的节点。

 

站在目前的时间点上看,许多研究人员的科研工作是组合式,这些工作可能是目标驱动的组合,也可能是工具驱动的组合。

目前,一种可行的研究方法就是,在大的研究框架中找到最核心的问题,并且试图通过组合演进的方式解决该问题,而不是从头开始设计一种全新的框架。在历史的长河中,往往很少出现这种全新的框架。

举例而言,就人类制造飞机的历史来看,从早期的螺旋桨飞机到喷气式飞机就完成了一种质变。但是,喷气式飞机的原理和子模块的技术都已经存在,喷气式飞机的研发者也是做了一种组合的工作。

在我们所涉足的研究领域中,BERT 和 GPT 都是一种组合式的工作,只不过这些工作的量级有大有小。

在我看来,大多数的研究还是会沿着这种组合演进的路线开展下去。当然,并非一两个团队或者一两个人的努力就可以取得最终的成功,而是在整个研究社区中的同行一起通过量变到质变的方式,自然而然地迈向下一个新的框架。

 

裘捷中:我认为目前的技术路线是有道理的。我一直信奉,我们生活在一个遵循大数定理的世界中:在研究过程中,我们之所以处于当前的历史方位,是因为有其他人做了大量的尝试,并且发现那些方法行不通;我们现在遵循的学习范式必定有其独到之处。

我十分赞同杨植麟博士的看法,我们现在所使用的技术框架是一代代进化出来的,是很多思想融合的结果。

同时,我也承认 GPT 这种大规模预训练模型可能存在一些不足,当务之急是找出这些框架中的短板。也许,我们在预训练模型的过程中已经学习到了某些常识,而在调优的过程中没有很好地用到这些常识。此时,我们也许可以求助于 P-Tuning 这样的技术。

 

此外,也可能是预训练文本中已经包含了某些常识的信息,但是由于 Transfomer 或者优化算法的某些限制,导致我们无法在学习中达到最优情况,此时我们也许应该考虑改进模型框架。

 

再往前推,也许语料库中的常识是不够的。在这种情况下,我们的研究路线就应该是如何在文本中增加更多的常识信息。所以,在我看来,定位核心的问题是比较关键的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值