大模型的涌现能力(Emergent Abilities of LLM)

论文探讨了大型语言模型(LLM)在增加规模时出现的新能力,称为涌现能力。这些能力在小模型中不存在,但在大模型中显现,例如在Few-ShotPrompting任务中,模型达到一定规模后性能显著提升。此外,通过增强提示策略,如多步推理和指令跟随,也能展现模型的涌现能力。作者指出,模型规模、数据量、算法改进都可能影响涌现,并提出了未来研究的方向,包括模型扩展、架构优化和理解涌现机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来源:大模型的涌现能力(Emergent Abilities of LLM) - 知乎

论文名称:Emergent Abilities of Large Language Models

论文链接:https://arxiv.org/pdf/2206.07682.pdf

论文来源:Google&Deepmind

论文讨论了LLM中的emergent abilities现象,主要探究随着model scale的增长,emergnce现象的出现。

1. Emergent Abilities Definition

本文中对LLM的emergent abilities的定义为:

在较小的模型中不出现,而在较大的模型中出现的能力,则可以称之为emergent.

(An ability is emergent if it is not present in smaller models but is present in larger models.)

本文的目的不是去谈论是否存在一个scale就可以观察到emerge abilities,而是去讨论之前的工作中出现的emergent现象。

2. Few-Shot Prompted Tasks

本部分主要讨论在prompting范式下的emergent abilities, 该范式如下图所示:

few-shot prompting的emergent主要体现为模型在没有达到一定规模前,得到的表现较为随机,在突破规模的临界点后,表现大幅度提升。如下图所示,在BIG-Bench上,GPT-3和LaMDA在未达到临界点时,模型的表现都是接近于零。而在GPT-3的规模突破2 · 10^22 training FLOPs (13B参数),LaMDA的规模突破10^23 training FLOPs (68B参数),模型的表现开始快速上升。

3. Augmented Prompting Strategies

除了few-shot prompting可以反映emergent abilities, 作者认为如果在某个任务上的某个手段,模型达到一定规模以前,使用该手段,相比于基线没有提升或者是有害的,那么可以将该手段看成emergent ability.

作者在Multi-step reasoning(chain-of-thought prompting); Instruction following(使用instructions描述任务,不使用few-shot exemplars); Program execution;Model calibration(calibration需要模型去评估自己是否能正确回答某个问题)

下表给出了大模型出现emergent ablities的规模统计

4. Discussion

4.1 Potential explanations of emergence

  1. 对于模型突破某个规模的临界值后,出现emergent abilities的现象。作者给出直观上的猜想,某个multi-step reasoning任务需要l个step的计算,那么可能需要模型主要需要O(l)层的数目。同时也可以很自然猜想更多的参数和更多的训练有助于模型记忆更多的world knowledge. 比如在closed-book question-answering可能需要模型有更多的参数去记忆尝试知识。

  2. 衡量emergent abilities的evaluation metrics也值得探究。仅仅使用最终的指标如acc等并不一定很好反映emergence.

4.2 Beyond scaling

虽然本文主要探究模型超过一定规模后出现emergent ability, 但模型仍然有可能通过数据,算法的改进在更小规模出现emergence. 比如在BIG-Bench任务上,LaMDA在137B,GPT-3在175B上出现emergent ability,而PaLM在62B就可以出现。

4.3 Another view of emergence

虽然模型的规模与大模型的表现高度相关,但是但模型的规模不是观察到emergent abilities的唯一尺度。如下图所示,模型的emergent abilities可以看成一系列相关变量的函数。

4.4 Directions for future work

作者为未来研究大模型中的emergent abilitie提供了一些方向。

  1. Further model scaling: 继续增加模型的规模探究模型的表现的提升。

  2. Improved model architectures and training:从模型的结构和训练过程上提高模型的质量,从而使模型在较低的训练成本下就可以获得emergent abilities.

  3. Data scaling: 增大数据集的规模

  4. Better techniques for and understanding of prompting:更好地发挥prompt在模型中的作用

  5. Frontier tasks: 仍然有些任务无法出现emerent abilities,这也是值得探究的。

  6. Understanding emergence: 关于emergent abilities为什么会在语言模型中发生仍然是未知的。

 

GPT(生成式预训练模型)之所以能够拥有它的能力,是因为它的设计使其具备了跟随数据学习和迭代的能力。GPT采用了神经网络人工智能领域的最新技术,包括自监督学习、无监督训练和预训练等技术。在使用GPT之前,需要给它提供大量的文本数据,然后利用神经网络对这些数据进行训练和预测。 从源代码中可看出,GPT是一种大规模的神经网络模型,它由一个或多个神经网络层(或模块)组成,每个神经网络层都有自己的权重参数和输入输出。在训练过程中,GPT会通过自监督学习来学习输入参数之间的关系,从而可以自动生成类似于人类的语言表达。这些输入参数是来自于大量的文本数据中的语言模式,即词汇和语法规则,这些模式是通过机器学习的方式自动发现和提取的。 GPT的能力是通过迭代训练和学习来实现的。在这个过程中,GPT会根据训练数据的质量和数量来不断地调整模型的参数和结构。这些模型的参数和结构与模型的能力和表现密切相关,例如模型的容量、深度、激活函数和优化算法等方面。因此,通过调整这些参数和结构,可以不断地提升GPT的能力和性能。 总之,GPT之所以能拥有它的能力,是通过采用了最新的机器学习技术,并结合大规模文本数据的预训练和迭代学习,而得到的。通过这种方式,GPT可以从数据中自动学习和发现语言模式,从而可以自然地生成高质量的自然语言文本,比如翻译、摘要和对话等任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值