#今日论文推荐#Jeff Dean等人新作：换个角度审视语言模型，规模不够发现不了_emergent abilities of large language models csdn-CSDN博客

#今日论文推荐#Jeff Dean等人新作：换个角度审视语言模型，规模不够发现不了

这是一篇来自谷歌、斯坦福大学、北卡罗来纳大学教堂山分校以及 DeepMind 四个机构的研究，论文从「涌现（emergence）」的角度介绍大模型，所谓的涌现，即有些现象不存在于较小的模型中但存在于较大的模型中。
近年来，语言模型对自然语言处理 (NLP) 产生了革命性影响。众所周知，扩展语言模型，例如参数等，可以在一系列下游 NLP 任务上带来更好的性能和样本效率。在许多情况下，扩展对性能的影响通常可以通过扩展定律进行预测，一直以来，绝大多数研究者都在研究可预测现象。
相反，包括 Jeff Dean 、 Percy Liang 等在内的 16 位研究者合作的论文《 Emergent Abilities of Large Language Models 》，他们讨论了大模型不可预测现象，并称之为大型语言模型的涌现能力（ emergent abilities）。所谓的涌现，即有些现象不存在于较小的模型中但存在于较大的模型中，他们认为模型的这种能力是涌现的。
涌现作为一种想法已经在物理学、生物学和计算机科学等领域讨论了很长时间，本论文从涌现的一般定义开始，该定义改编自 Steinhardt 的研究，并植根于 1972 年诺贝尔奖获得者、物理学家 Philip Anderson 的一篇名为 More Is Different 的文章。
本文探讨了模型规模的涌现，通过训练计算和模型参数来衡量。具体而言，本文将大型语言模型的涌现能力定义为在小规模模型中不存在、但在大规模模型中存在的能力；因此，大型模型不能通过简单地推断小规模模型的性能改进来进行预测。该研究调查了在一系列先前工作中观察到的模型涌现能力，并将它们进行分类：小样本提示和增强提示等设置。
模型的这种涌现能力激发了未来的研究，即为什么会获得这些能力，以及更大的规模是否会获得更多的涌现能力，并强调了这项研究的重要性。

论文题目：Emergent Abilities of Large Language Models
详细解读：https://www.aminer.cn/research_report/62b166357cb68b460fd7cca4?download=falsehttps://www.aminer.cn/research_report/62b166357cb68b460fd7cca4?download=false
AMiner链接：https://www.aminer.cn/?f=cs