ChatGPT的发展历程与关键技术 | CCF讲座笔记

说明:本文为CCF主办的SPP第54期直播的现场笔记,CCF会员可登录CCF数字图书馆查看回放。本期直播主讲人为中国人民大学高瓴人工智能学院教授赵鑫,主要内容来自其课题组发表的预印版论文《A Survey of Large Language Models》

1 ChatGPT简介

1.1 ChatGPT上线后火爆出圈

特点:丰富的背景知识、长文档理解与生成能力、长程对话的语义一致性、复杂任务推理能力、与人类价值观对齐的能力、自然语言指令遵循能力

可视为人工智能历史上最为强悍的“信息助手”。

1.2 ChatGPT引发技术变革

Github Copilot推广得不错。

技术发展带来产业形态的巨大变革,人工智能行业出现“代际差”现象。(OpenAI大幅领先)

1.3 ChatGPT是什么

ChatGPT的核心是大规模预训练语言模型。

Transformer架构使得并行训练深层次架构的神经网络成为可能,奠定了大模型的根基。目前很难出现颠覆性的架构。

1.4 ChatGPT为什么如此之强

(1)尺寸大非常关键
一元线性回归y=wx+b:只有一个自变量(特征x的维度为1,因此w的维度也是1)
多元线性回归y=WX+B:有多个自变量(特征X的维度大于1,因此W的维度也大于1)
大模型能够“吃掉”更多的数据。数据数量、数据质量决定了模型的能力,同样意味着大算力需求。

(2)存在工程技术壁垒
大模型训练、使用不仅仅是“炼丹”,系统级工程技术非常重要。

2 大模型的涌现能力

(0)现象:当大语言模型(LLM)的PLM参数量和预训练数据量达到一定规模时(如10B),其会涌现出某些特定的、小模型不具备的能力。如上下文学习、逐步推理等。该能力目前无法通过计算机科学解释。

(1)定义:小模型中不存在,只出现在大模型中的能力。

(2)特征:当模型规模到达某一程度,模型表现显著增长。

(3)可能的原理
①很多任务需要更强的模型能力:一般来说,参数越多意味着更强的拟合能力(多跳推理)
②度量指标存在问题:度量指标不够平滑,导致涌现实际上是能力差距的“假”反应
③知识表示的密集程度:解决问题需要的知识密集程度要达到一定程度才可以

(4)数据来源
①大模型数据分布:网页是非常重要的数据源,还有代码、图书、新闻、论文等。LLaMA的数据配比是一个很好的参考。
②预训练数据清洗

(5)数据数量
预训练数据数量与模型参数间的关系:Chinchilla发现在给定计算资源的情况下,模型参数量和预训练语料数应该等比例缩放。

3 ChatGPT不是突然涌现的

GPT系列模型是成体系推进的。

  • 2017年,谷歌提出Transformer
  • 2018年,OpenAI提出GPT(1亿+参数)
  • 2019年,GPT2(15亿参数)
  • 2020年,GPT3(1750亿参数)
  • 2021年,CodeX(基于GPT3,赋予了代码和思维链能力)
  • 2021年,WebGPT(搜索能力)
  • 2022年2月,InstructGPT(理解人类指令)
  • 2022年11月,ChatGPT(对话能力)

关键因素:研究视野、技术人员、基础设施、工程实践、数据积累、算法设计

因此,训练达到ChatGPT水平的大模型还需要一段时间努力。

4 GPT系列发展历程

(1)GPT-1:预训练Decoder-only Transformer架构(2018.06)

  • 关键点:预测下一个词
  • 采用“预训练-微调范式”
  • 关注大牛:Ilya Sutskever

(2)GPT-2:用预训练语言模型执行无监督任务(2019)

  • 关键点:模型尺寸(1亿→15亿)
  • 使用自然语言指令(prompt)无监督解决任务

多任务学习
①公式表示:Pr(output|input,task)
②痛点:数据形式、任务目标难以统一
③重要思想:全部以自然语言表达(All in natural language),这样任务解决转化为单词预测。如机器翻译:Pr(welcome to BJ|北京欢迎你,汉英翻译)

(3)GPT-3:大语言模型做小样本学习器(2020)

  • 关键点:Exploring the limit of scaling(1750亿参数)
  • 使用基于自然语言的上下文学习(ICL)
  • 自然语言提示效果显著,使用Demonstration进行学习

(4)Codex:大语言模型做代码数据预训练(2021)

  • 使用代码数据微调GPT3模型,提升代码和推理能力

(5)WebGPT:通过Web浏览器使用大语言模型

  • 微调GPT-3模型使用网络回答复杂问题

(6)InstructGPT:大语言模型与人类对齐(2022.1)

  • 与人类习惯、价值观对齐(提出RLHF)

(7)ChatGPT:将大语言模型适配于对话任务(2022.11)

  • 基于与InstructGPT相似的技术开发,面向对话进行优化

(8)GPT-4:针对GPT-3.5模型的强化(2023.3)

  • 推理能力显著提升,建立可预测的训练框架
  • 可支持多模态信息的大语言模型

5 能力诱导微调

(1)指令微调:增强语言模型执行任务指令的能力,提升任务泛化能力
(2)对齐微调:使语言模型与人类价值观靠近,规避大模型的使用风险

5.1 指令微调

目的:对齐真实场景下的人类需求

指令输入:API收集+人工标注

指令输出:根据指令标注相关回复

人工标注成本较高,可利用LLM自动化构建。可以借助其他任务的例子,做ICL。

5.2 对齐微调

  1. 为什么大型语言模型需要对齐?因为LLM出现不可控行为,比如捏造事实、生成偏颇有害文本、不遵循指令行动等
  2. 对齐的目的:使大模型行为与人类的偏好和价值观一致
  3. 对齐的标准:典型的有“HHH”标准——Helpfulness(有用性)、Honesty(诚实性)、Harmlessness(无害性)
  4. 常用对齐技术:结合人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)

5.3 RLHF系统的组成

  1. 预训练语言模型:生成式LM,使用现有PLM初始化。比如,InstructGPT使用GPT-3(175B)。
  2. 奖励模型:另一个经过微调的LM(或使用人类偏好数据从头训练)。比如,InstructGPT使用GPT-3(6B)。
  3. 强化学习算法。比如,InstructGPT使用PPO算法。

6 大模型关键技术

  1. 规模增大:模型、数据(代码训练)、计算量
  2. 稳定训练:分布式训练、优化框架和训练策略,硬件支持
  3. 能力诱导:指令微调、情境学习(思维链推理)
  4. 对齐微调:保持大模型与人类价值观一致
  5. 工具利用:计算器、ChatGPT插件、HuggingGPT、Visual ChatGPT等

7 现有问题

底层理论、幻象、评测方法、知识更新、推理、结构化生成、领域适配、轻量化部署

8 在线讨论

国内对标GPT的产品很多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值