概要
涌现(emergent abilities)能力可能是大模型之于一般模型的最重要区别。
涌现能力是在模型参数增加到某一临界点后突然出现的,这些能力包括但不限于语言理解能力、生成能力、逻辑推理能力等,而这种能力是小模型所不具备的。
这也是为什么chat GPT出现后让人眼前一亮:和它聊天与真人无异,不像是机器了!这主要应该归功于大模型的涌现能力。
涌现能力
这种能力具体表现在以下几个方面:
-
交互能力
大模型能够与人类进行更加自然和流畅的交互,理解人类的意图并给出恰当的回应。 -
优秀的上下文学习能力
也就是说它不需要再训练,只要给他指令(Instruction)或者举例子(demonstration),它就能举一反三的给出较为准确的答案。 -
复杂逻辑推理能力
在处理逻辑推理、数学推理等需要多步骤的复杂任务时,小模型可能表现不佳,但大模型在达到一定规模后,能够较好地完成这些任务,展现出较强的推理能力。例如能够解决复杂的数学问题、进行逻辑关系的分析和推导等。比如,大模型可以通过思维链(chain of thought)像人类一样分很多步骤推理完成复杂任务。 -
泛化能力
大模型在面对未见过的数据时,能够表现出更好的泛化能力,可以完成未曾训练过的任务。 -
创意生成能力
大模型可以生成具有创造性的文本内容,如创作故事、诗歌、文案等。其生成的内容不仅语法正确,而且在逻辑和创意上都有一定的水平,能够给人带来新颖的感受。
小结
大模型的涌现能力是其在达到一定规模后突然显现出的让人惊艳、意想不到的能力。但是它也有一定的不可预测性,比如:自信满满的编造答案:)