大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

返回论文和资料目录

论文地址
项目地址

1.导读

讲得通俗易懂,且格局拉满!基本覆盖了自ChatGPT以来的AI比较火的事件,还多次提到强人工智能AGI(人工通用智能)。对近几年的大型语言模型( Large Language Models)进行了详细介绍。非常建议感兴趣大模型和强人工智能的读者阅读!!!

2.摘要和引言

从图灵测试开始讲起,人类一直在探索用机器掌握语言智能的方法。

在过去20年,语言模型得到了广泛研究。从统计语言模型到了基于神经网络的语言模型(LSTM等)。

最近这些年,通过在大规模语料库(数据集)上对Transformer模型的预训练,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面显示出了很强的能力。

近一两年(从20年的GPT-3开始),发现当参数尺度超过一定水平时,这些扩展的语言模型不仅实现了显著的性能提高,而且还表现出一些小规模语言模型(如BERT)中不存在的特殊能力(如上下文学习)。为了区分不同参数尺度下的语言模型,研究界创造了术语大型语言模型(LLM),用于描述具有显著规模的PLM(例如,包含数百亿或数千亿个参数)的PLM。

近半年来,ChatGPT(基于LLM开发的强大的人工智能聊天机器人)的推出,引起了社会的广泛关注。

总的来说,语言模型LM经过了如下4个阶段:

  1. STM(统计语言模型):例如基于马尔科夫链预测下个词。
  2. NLM(神经语言模型/基于神经网络的语言模型):例如RNN、LSTM等。
  3. PLM(预训练语言模型):例如GPT-1,GPT-2,Bert等。与NLM的不同是,将语言模型做成了“一劳永逸”的形式,即一个模型可以做很多事,只要训练了一个模型后,不需要下游任务进行复杂的微调。其中GPT-2将模型做成了Zero-shot的形式大大加强了预训练语言模型的性能。
  4. LLM(大型语言模型):GPT-3,PALM、ChatGPT、LLaMA、GPT-4等。与PLM最直观的不同是模型大了,训练数据多了。

作者在这给出了LLM出现后的3个情况:

  1. LLM涌现出PLM中未出现的性能。LLM更大GPT-3是第一个将模型大小扩展到千亿参数的模型,其涌现出模型较小时未出现的智能。现在的ChatGPT也是。
  2. 已有都是人来选择使用的LM模型来解决具体的任务,现在是人告诉LLM要干嘛,然后LLM根据要求解决问题。
  3. 出现了工业界和学业界的划分。以前都基本是学业界引导AI发展,现在出现工业界引导的情况。因为LLM需要大量的资金基础,所以最早的突破来自OpenAI,而非高校。

作者提到了LLM与AGI的联系

OpenAI给出了关于实现AGI的计划

最近一些研究《Sparks of Artificial General Intelligence: Early experiments with GPT-4》也认为GPT-4已经具备了一定的AGI能力。

作者给出了关于LLM相关文献的回顾,并在github上创建了一个项目

3.回顾

背景

已有的LLM仍然基于Transformer结构。

LLM涌现出的能力

  • 上下文理解
  • 跟随指令
  • 一步一步推理

LLM的关键技术

  • 规模:考虑固定模型规模和数据集规模,如何提升模型性能
  • 训练:如何降低训练成本
  • 能力引出:如何引导出模型已经具备的能力
  • 调优:减少有害的输出
  • 工具使用:例如使用计算器帮助LLM提升计算能力

LLM模型发展脉络
在这里插入图片描述

LLM模型汇总
在这里插入图片描述

其他方面LLM模型作者写的还没有这篇公众号清楚。

不过作者在github上给出了很多相关论文地址

数据集
在这里插入图片描述

模型使用的数据集分布
在这里插入图片描述

数据处理流程
在这里插入图片描述
模型结构

在这里插入图片描述

优化设置
在这里插入图片描述

4.模型调优

构建指令数流程
在这里插入图片描述
指令数据集

在这里插入图片描述

RLHF算法(InstructGPT使用的方法)
在这里插入图片描述

5.评估

在这里插入图片描述

未完待续

### 大语言模型综述文章概述 大语言模型(LLM)的研究和发展正在迅速推进,相关的综述文章提供了全面的理解和支持。一份重要的英文版综述文章《A Survey of Large Language Models》于今年3月末发布在arXiv网站上[^3]。这份文档不仅系统性地整理了大语言模型的研究进展和技术核心,还探讨了许多关联的工作成果。 #### 主要内容覆盖范围 此综述从四个方面深入剖析了大语言模型: - **文献回顾**:涵盖了对现有研究工作的广泛评估,帮助理解领域内的现状与发展脉络[^1]。 - **模型使用**:描述了如何利用这些大型预训练模型执行特定任务的方式,例如通过信息量度量挑选示范案例或是采用强化学习框架优化选择过程等技术细节[^2]。 - **资源介绍**:列举了一系列支持开发者构建和实验新想法所需的工具集合,像开源的模型权重文件、应用程序接口(APIs)以及各类数据库资源等[^4]。 - **多模态扩展**:特别提到了一种新的趋势——即结合不同形式的数据输入来进行更复杂处理的能力(Multi-modal LLM),并对其潜力进行了展望[^5]。 #### 更新情况说明 为了保持内容的相关性和准确性,《A Survey of Large Language Models》经历了多次修订和完善,在6月底完成了大规模改稿工作,现在已经是第十一版(V11)。随着领域的快速变化,预计未来还将持续更新以反映最新的科研动态。 ```python # 示例代码展示获取最新版本综述的方法 import requests def get_latest_survey_version(): url = "https://arxiv.org/abs/path_to_paper" response = requests.get(url) if response.status_code == 200: return f"Latest version available at {url}" else: return "Failed to fetch the latest version" print(get_latest_survey_version()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小怪兽会微笑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值