2.大语言模型LLM的涌现能力和关键技术

_Amen

于 2024-09-11 18:27:56 发布

阅读量1.3k

点赞数 10

分类专栏：大语言模型 LLM 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38958704/article/details/142145727

版权

通常，大语言模型（LLM）指包含数百亿（或更多）参数的语言模型，这些模型在大量的文本数据上进行训练，例如GPT-3、PaLM、Galactica和LLaMA。具体而言，LLM基于Transformer架构构建，其中多头注意力层堆叠在非常深的神经网络中。现有的LLM主要采用与小语言模型类似的模型架构（即Transformer）和预训练目标（即语言建模）。作为主要区别，LLM大幅扩展了模型大小、预训练数据和总计算量（若干数量级），可以更好地根据上下文（即提示）理解自然语言并生成高质量的文本。这一能力提升可以部分通过扩展定律来描述，即任务性能大致随着模型大小的增加而显著提高。然而，根据扩展法则，一些能力（例如上下文学习）是不可预测的，只有当模型大小超过一定水平时他们才能被观察到（如下文所述）。

大语言模型的涌现能力：LLM的涌现能力被正式定义为“在小模型中不存在但在大模型中出现的能力”，这是区分LLM与以前的PLM最突出的特征之一。它进一步介绍了涌现能力显现时一个显著的特征：当规模达到一定水平时，性能显著提高，超过随机水平。类比地，这种涌现模式与物理学中的相变现象有这密切的联系。原则上，涌现能力可以定义为与某些复杂任务相关的能力，而我们更关注能够应用于解决各种任务的通用能力。这里，我们简要介绍三个代表性的LLM涌现能力：

上下文学习：上下文学习能力由GPT-3正式引入：假设提供给语言模型自然语言指令和（或）多个任务演示，它可以以完成输入文本的单词序列的方式来测试实例生成期望的输出&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。