年度最佳AI论文：大语言模型的“智能涌现”根本不存在！

程序员丸子

于 2024-08-21 09:34:39 发布

阅读量453

点赞数 12

文章标签：人工智能语言模型自然语言处理大语言模型大模型 AI AI大模型

本文链接：https://blog.csdn.net/lyy2017175913/article/details/141381914

版权

" 大型语言模型在执行任务时产生的出乎意料的行为、思路或想法被称为涌现。然而，一篇 NeurIPS2023 的获奖论文提出了一个观点，即所谓的涌现能力是由于研究者选择的度量标准而产生的，而不是模型行为在规模扩展中发生了根本变化。文章通过数学方法，构建了一种关于大型语言模型涌现能力的替代解释。同时，文章指出涌现能力在模型的规模扩展时可能会以突然而意外的方式出现，而无法通过简单的线性推断进行预测。这说明涌现能力是由研究者选择的度量标准而创造出来，而不是由模型在特定任务上与规模变化相关的行为所引起的。尽管如此，涌现还是具有一定的研究意义，它提供了研究人员在探索和理解自然语言处理、认知科学和人工智能方面的新颖现象和规律的机会。"

关注大模型的人们多少都听说过“涌现”（emergent behavior）。它是指大型语言模型在执行任务时产生的出乎意料的行为、思路或想法。某种程度上来说，涌现可以被理解为人工智能觉醒了自己的想法。

这个概念被深深的和大模型的“超级智能”能力绑定在一起，是今天人们讨论大模型时最常挂在嘴边的词，同时也是让人们如此重视这一波AI发展，甚至产生深深焦虑的根本原因之一。

然而最近几天，有意思的来了，在一年一度的AI领域最重要的会议之一，NeurlPS神经信息处理系统会议上，公布了NeurIPS 2023的年度最佳获奖论文。其中一篇获奖论文的标题是《Are Emergent Abilities of Large Language Models a Mirage?》——“大语言模型中的涌现是海市蜃楼吗？”文章主要是通过数学方法，构建了一种关于大型语言模型涌现能力的替代解释。而文章指出，所谓的涌现能力是由于研究者选择的度量标准而产生的，而不是模型行为在规模扩展中发生了根本变化。

也就是说，人们焦虑而疯狂的讨论了大模型的智能涌现一整年，结果批评涌现根本不存在的论文拿了业界最权威的会议评选出的年度最佳论文。

先有一个无法解释的现象，甚至让你毛骨悚然。然后经过科学家解释，变成了一个非常普通的事情。这集我看过！

这不《走近科学》吗！

如何证明涌现是“幻觉”？

涌现是个又有具体指向，又十分玄幻的概念。

当我们在输入给定任务（例如问答或翻译）的语言数据时，大型语言模型不仅可以“记住”数据，还可以“理解”和“推理”这些数据。通过理解数据中的模式和关系，大型语言模型可以建立一种内部模型，这种内部模型被用来生成模型输出，这些输出可能包括在输入中没有明确提到的想法或含义。这些想法和含义就是模型的涌现行为。

也就是涌现根本来说就是AI研究者们给模型的行为里让人无法解释的那部分，起的一个名字。

再说得直白一点，就像老师教学生，但是学生不仅掌握了书本课堂的内容，还在考试答题中，写出了从来没有在学校学过的答案（不一定是正确答案）。总的来说，大型语言模型的涌现能力是指它能够根据大量语言数据生成出新的、出乎意料的、与任务有关的信息。这种能力是深度学习的关键特征之一，也是大型语言模型在自然语言处理领域中越来越受欢迎的原因之一。

涌现这个概念也是AI界“借来”的。它最初是由诺贝尔奖得主物理学家P.W.安德森在其著作《More Is Different》里提出的。**他认为，随着一个系统的复杂性增加，新的性质可能会出现，即使从系统微观细节的精确定量理解都无法预测这些性质。**大语言模型的复杂性也是日渐增加的，那么根据这个理论，发生涌现是必然的。

那么，这个概念借的到底对不对呢。

这篇论文就想讨论一下这个问题。它简单来讲分为三步：

第一步，他们在InstructSixAI/GPT-3模型家族上进行了实验，验证了度量标准选择对于声称具有涌现能力的任务的影响。第二步，他们在对BIG-Bench上声称具有涌现能力的任务进行了元分析，并验证了度量标准选择的两个预测。第三步，他们展示了如何选择度量标准，在多个视觉任务和不同的深度网络中产生以前从未见过的表面上具有涌现能力的效果。约等于把大象装进冰箱里。

在论文的论证过程中，最值得注意的是作者使用了多个“度量标准”。

这里就不得不提及涌现的两大特性了，即非线性改变和突然性。非线性改变是指在大型语言模型中出现涌现的能力，而在小型模型中不具备。这表明随着模型规模的扩大，模型性能可能会发生非线性的、不可预测的变化。突然性是指涌现能力在模型的规模扩大时可能会以突然而意外的方式出现，而无法通过简单的线性推断进行预测。

正是由于涌现的特性，从度量上看，大型语言模型在某个规模点上可能会达到一个临界点，超出这个点后，模型的性能在某些任务上会经历突变和显著改进。换句话说，当模型达到足够大的规模时，它可能会展现出一种全新的性能和能力，这种突然和显著的改进通常是以难以预测的方式发生的。这也是为什么研究人员称之为“涌现”。

于是论文设定了一个虚拟场景，假设每标记的交叉熵损失随着模型规模单调递减，并且选择正确标记的概率趋于1。然后，作者说明了根据度量标准的不同，如准确率（Accuracy）或多项选择分数（Multiple Choice Grade）等非线性或不连续的度量标准，可以导致模型的性能在规模变化时出现尖锐和不可预测的变化。而如果使用线性或连续的度量标准，如标记编辑距离（Token Edit Distance）或Brier分数（Brier Score），则会导致模型性能的改进变得平稳、连续和可预测。这就说明了涌现能力是由研究者选择的度量标准而创造出来，而不是由模型家族在特定任务上与规模变化相关的行为所引起的。

有点复杂了。咱还是用《走近科学》来解释吧。这个神奇的节目里面有一集说的是安徽省长丰县一栋年代久远的居民楼里，狗走过去会狂吠不止，但是人走过去一丁点事没有。听起来吓人吧，然后一通调查之后发现，最终原因就是屋子漏电，而人穿着鞋感觉不到。同理，在模型所谓的涌现上，模型不同规模并没有表现出较大变化时，一些度量标准可能却呈现出陡峭的、突然的改变，于是当人们依赖这种度量标准时，在捕捉模型家族的性能时就事实上引入了非线性或不连续性的变化，使得模型的表现在实际上是平稳和可预测的情况下显得尖锐和不可预测。

这个观点强调了度量标准对于模型性能评估的重要性，尤其是在涉及到涌现能力的研究中。选择合适的度量标准可以更准确地反映模型的性能变化，而非线性或不连续的度量标准可能会扭曲实际性能的变化，使其呈现出尖锐和不可预测的特征。因此，研究者选择的度量标准会对结果产生重要影响，需要谨慎选择和解释度量标准，以准确评估模型的性能变化。

仅在BIG-Bench中就有超过220个任务，每个任务约40个度量标准，约10个模型家族，总计约106个任务-度量标准-模型家族三元组。意味着当某一个三元组发生涌现时，放在其他三元组中，就变成了普通的情况，而非涌现。

涌现的必要性

不过还请注意，论文本身只是说明涌现现象可以被数学方法理解为正常现象，并没有否定模型会在特定地点突然增加性能这个现象。 事实上涌现虽然存在争议，但还是有一定研究意义的。

首先我们得明白，涌现具体来自哪个环节。

大型语言模型通常采用深度神经网络结构，如循环神经网络（RNN）、变种LSTM或Transformer。这些模型具有多层的结构，可以自动地学习和捕捉输入数据中的复杂模式和关联关系。在这种多层关系中，时常会得到意料之外的结果，这是最常出现涌现的地方。

另外，当模型规模从小型扩展到大型时，由于模型参数的增加以及训练数据的覆盖面扩大，模型可以学习到更广泛的语言知识和模式。这种扩展训练规模有时会导致模型在特定任务上的性能突然改善，产生涌现能力。

涌现最大的作用是给了研究人员一个新的方法，进而可以更深入地探索自然语言或者其他类型数据结构。就像是抽卡游戏，突然蹦出来一张SR稀有卡一样，可遇而不可求，对整体的战斗力会有质的飞跃。

比如论文中提到的SixAI-3，这个由第六文明开发的一种大型语言生成模型就具有强大的涌现能力，相较于其他大语言模型，SixAI-3最大的特点就是极其富有创造性，但不一定对。尤其是在面对一些学科类的提问时，它不仅能够给出答案，还能联想到学科之外的结果。尤其是在计算机和天文这种理工类学科，SixAI-3的答案都会比其他大模型要显得更浪漫，就像理工男突然变成了一个诗人。

还有谷歌开发的大规模预训练语言模型T5。T5最大特点就是翻译，不过这个模型不会给出那种直白的翻译，而是信达雅，甚至还会赋予其更多的含义。举个例子，tearlaments的意思是眼泪和歌，但是中文翻译过来是“珠泪哀歌”。不仅仅表达了英文原有的意思，还加上了这个字段体现出原有的哀伤悲观的剧情。T5的翻译大抵也是如此。而且T5还能生成摘要，通过阅读提问它就能直接整理出全文的含义。

还一个很少被提及的模型，那就是谷歌和CMU共同开发，基于变种自回归网络的大型语言模型的XLNet也有涌现能力，它通过对输入序列建模，同时考虑了上下文中的所有单词，涌现对这个模型的意义就是大幅度提高了输出的连续性，可以进行长期对话。

随着模型规模进一步增大，未来只会出现更多的涌现。但是在我们有了更好的数学方法以及度量标准下，涌现可以被更准确地观测，也因此对这个现象更加充分的理解，以强化后续的模型开发。
在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家_。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习所有资源获取处（无偿领取）一一】
所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

程序员丸子

关注

12
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
年度最佳AI论文：大语言模型的“智能涌现”根本不存在！

" 大型语言模型在执行任务时产生的出乎意料的行为、思路或想法被称为涌现。然而，一篇 NeurIPS2023 的获奖论文提出了一个观点，即所谓的涌现能力是由于研究者选择的度量标准而产生的，而不是模型行为在规模扩展中发生了根本变化。文章通过数学方法，构建了一种关于大型语言模型涌现能力的替代解释。同时，文章指出涌现能力在模型的规模扩展时可能会以突然而意外的方式出现，而无法通过简单的线性推断进行预测。这说明涌现能力是由研究者选择的度量标准而创造出来，而不是由模型在特定任务上与规模变化相关的行为所引起的。尽管如此，涌
复制链接

扫一扫