#今日论文推荐#Jeff Dean等人新作:换个角度审视语言模型,规模不够发现不了

#今日论文推荐#Jeff Dean等人新作:换个角度审视语言模型,规模不够发现不了

这是一篇来自谷歌、斯坦福大学、北卡罗来纳大学教堂山分校以及 DeepMind 四个机构的研究,论文从「涌现(emergence)」的角度介绍大模型,所谓的涌现,即有些现象不存在于较小的模型中但存在于较大的模型中。
近年来,语言模型对自然语言处理 (NLP) 产生了革命性影响。众所周知,扩展语言模型,例如参数等,可以在一系列下游 NLP 任务上带来更好的性能和样本效率。在许多情况下,扩展对性能的影响通常可以通过扩展定律进行预测,一直以来,绝大多数研究者都在研究可预测现象。
相反,包括 Jeff Dean 、 Percy Liang 等在内的 16 位研究者合作的论文《 Emergent Abilities of Large Language Models 》,他们讨论了大模型不可预测现象,并称之为大型语言模型的涌现能力( emergent abilities)。所谓的涌现,即有些现象不存在于较小的模型中但存在于较大的模型中,他们认为模型的这种能力是涌现的。
涌现作为一种想法已经在物理学、生物学和计算机科学等领域讨论了很长时间,本论文从涌现的一般定义开始,该定义改编自 Steinhardt 的研究,并植根于 1972 年诺贝尔奖获得者、物理学家 Philip Anderson 的一篇名为 More Is Different 的文章。
本文探讨了模型规模的涌现,通过训练计算和模型参数来衡量。具体而言,本文将大型语言模型的涌现能力定义为在小规模模型中不存在、但在大规模模型中存在的能力;因此,大型模型不能通过简单地推断小规模模型的性能改进来进行预测。该研究调查了在一系列先前工作中观察到的模型涌现能力,并将它们进行分类:小样本提示和增强提示等设置。
模型的这种涌现能力激发了未来的研究,即为什么会获得这些能力,以及更大的规模是否会获得更多的涌现能力,并强调了这项研究的重要性。

论文题目:Emergent Abilities of Large Language Models
详细解读:https://www.aminer.cn/research_report/62b166357cb68b460fd7cca4?download=falseicon-default.png?t=M5H6https://www.aminer.cn/research_report/62b166357cb68b460fd7cca4?download=false
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值