说明:本文为CCF主办的SPP第54期直播的现场笔记,CCF会员可登录CCF数字图书馆查看回放。本期直播主讲人为中国人民大学高瓴人工智能学院教授赵鑫,主要内容来自其课题组发表的预印版论文《A Survey of Large Language Models》。
目录
1 ChatGPT简介
1.1 ChatGPT上线后火爆出圈
特点:丰富的背景知识、长文档理解与生成能力、长程对话的语义一致性、复杂任务推理能力、与人类价值观对齐的能力、自然语言指令遵循能力
可视为人工智能历史上最为强悍的“信息助手”。
1.2 ChatGPT引发技术变革
Github Copilot推广得不错。
技术发展带来产业形态的巨大变革,人工智能行业出现“代际差”现象。(OpenAI大幅领先)
1.3 ChatGPT是什么
ChatGPT的核心是大规模预训练语言模型。
Transformer架构使得并行训练深层次架构的神经网络成为可能,奠定了大模型的根基。目前很难出现颠覆性的架构。
1.4 ChatGPT为什么如此之强
(1)尺寸大非常关键
一元线性回归y=wx+b:只有一个自变量(特征x的维度为1,因此w的维度也是1)
多元线性回归y=WX+B:有多个自变量(特征X的维度大于1,因此W的维度也大于1)
大模型能够“吃掉”更多的数据。数据数量、数据质量决定了模型的能力,同样意味着大算力需求。
(2)存在工程技术壁垒
大模型训练、使用不仅仅是“炼丹”,系统级工程技术非常重要。
2 大模型的涌现能力
(0)现象:当大语言模型(LLM)的PLM参数量和预训练数据量达到一定规模时(如10B),其会涌现出某些特定的、小模型不具备的能力。如上下文学习、逐步推理等。该能力目前无法通过计算机科学解释。
(1)定义:小模型中不存在,只出现在大模型中的能力。
(2)特征:当模型规模到达某一程度,模型表现显著增长。
(3)可能的原理
①很多任务需要更强的模型能力:一般来说,参数越多意味着更强的拟合能力(多跳推理)
②度量指标存在问题:度量指标不够平滑,导致涌现实际上是能力差距的“假”反应
③知识表示的密集程度:解决问题需要的知识密集程度要达到一定程度才可以
(4)数据来源
①大模型数据分布:网页是非常重要的数据源,还有代码、图书、新闻、论文等。LLaMA的数据配比是一个很好的参考。
②预训练数据清洗
(5)数据数量
预训练数据数量与模型参数间的关系:Chinchilla发现在给定计算资源的情况下,模型参数量和预训练语料数应该等比例缩放。
3 ChatGPT不是突然涌现的
GPT系列模型是成体系推进的。
- 2017年,谷歌提出Transformer
- 2018年,OpenAI提出GPT(1亿+参数)
- 2019年,GPT2(15亿参数)
- 2020年,GPT3(1750亿参数)
- 2021年,CodeX(基于GPT3,赋予了代码和思维链能力)
- 2021年,WebGPT(搜索能力)
- 2022年2月,InstructGPT(理解人类指令)
- 2022年11月,ChatGPT(对话能力)
关键因素:研究视野、技术人员、基础设施、工程实践、数据积累、算法设计
因此,训练达到ChatGPT水平的大模型还需要一段时间努力。
4 GPT系列发展历程
(1)GPT-1:预训练Decoder-only Transformer架构(2018.06)
- 关键点:预测下一个词
- 采用“预训练-微调范式”
- 关注大牛:Ilya Sutskever
(2)GPT-2:用预训练语言模型执行无监督任务(2019)
- 关键点:模型尺寸(1亿→15亿)
- 使用自然语言指令(prompt)无监督解决任务
多任务学习
①公式表示:Pr(output|input,task)
②痛点:数据形式、任务目标难以统一
③重要思想:全部以自然语言表达(All in natural language),这样任务解决转化为单词预测。如机器翻译:Pr(welcome to BJ|北京欢迎你,汉英翻译)
(3)GPT-3:大语言模型做小样本学习器(2020)
- 关键点:Exploring the limit of scaling(1750亿参数)
- 使用基于自然语言的上下文学习(ICL)
- 自然语言提示效果显著,使用Demonstration进行学习
(4)Codex:大语言模型做代码数据预训练(2021)
- 使用代码数据微调GPT3模型,提升代码和推理能力
(5)WebGPT:通过Web浏览器使用大语言模型
- 微调GPT-3模型使用网络回答复杂问题
(6)InstructGPT:大语言模型与人类对齐(2022.1)
- 与人类习惯、价值观对齐(提出RLHF)
(7)ChatGPT:将大语言模型适配于对话任务(2022.11)
- 基于与InstructGPT相似的技术开发,面向对话进行优化
(8)GPT-4:针对GPT-3.5模型的强化(2023.3)
- 推理能力显著提升,建立可预测的训练框架
- 可支持多模态信息的大语言模型
5 能力诱导微调
(1)指令微调:增强语言模型执行任务指令的能力,提升任务泛化能力
(2)对齐微调:使语言模型与人类价值观靠近,规避大模型的使用风险
5.1 指令微调
目的:对齐真实场景下的人类需求
指令输入:API收集+人工标注
指令输出:根据指令标注相关回复
人工标注成本较高,可利用LLM自动化构建。可以借助其他任务的例子,做ICL。
5.2 对齐微调
- 为什么大型语言模型需要对齐?因为LLM出现不可控行为,比如捏造事实、生成偏颇有害文本、不遵循指令行动等
- 对齐的目的:使大模型行为与人类的偏好和价值观一致
- 对齐的标准:典型的有“HHH”标准——Helpfulness(有用性)、Honesty(诚实性)、Harmlessness(无害性)
- 常用对齐技术:结合人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)
5.3 RLHF系统的组成
- 预训练语言模型:生成式LM,使用现有PLM初始化。比如,InstructGPT使用GPT-3(175B)。
- 奖励模型:另一个经过微调的LM(或使用人类偏好数据从头训练)。比如,InstructGPT使用GPT-3(6B)。
- 强化学习算法。比如,InstructGPT使用PPO算法。
6 大模型关键技术
- 规模增大:模型、数据(代码训练)、计算量
- 稳定训练:分布式训练、优化框架和训练策略,硬件支持
- 能力诱导:指令微调、情境学习(思维链推理)
- 对齐微调:保持大模型与人类价值观一致
- 工具利用:计算器、ChatGPT插件、HuggingGPT、Visual ChatGPT等
7 现有问题
底层理论、幻象、评测方法、知识更新、推理、结构化生成、领域适配、轻量化部署
8 在线讨论
国内对标GPT的产品很多。