大型语言模型实用指南

最新推荐文章于 2024-09-30 00:00:00 发布

拉达曼迪斯II

最新推荐文章于 2024-09-30 00:00:00 发布

阅读量1.1k

点赞数 21

分类专栏： AIGC学习 AI创业 Unigine引擎深入研究文章标签：语言模型人工智能自然语言处理 gpt 3d 算法

本文链接：https://blog.csdn.net/ms44/article/details/142459660

版权

AI创业同时被 3 个专栏收录

330 篇文章 0 订阅

订阅专栏

AIGC学习

295 篇文章 1 订阅

订阅专栏

Unigine引擎深入研究

34 篇文章 2 订阅

订阅专栏

大型语言模型实用指南

一份精选的（仍在积极更新）LLM 实用指南资源列表。它们还构建了现代大型语言模型 (LLM) 的进化树，以追踪近年来语言模型的发展，并重点介绍了一些最著名的模型。

大型语言模型实用指南
- 模特实用指南
  - BERT 风格语言模型：编码器-解码器或仅编码器
  - GPT 风格的语言模型：仅解码器
- 数据实用指南
  - 预训练数据
  - 微调数据
  - 测试数据/用户数据
- NLP 任务实用指南
  - 传统NLU任务
  - 生成任务
  - 知识密集型任务
  - 可扩展的能力
  - 具体任务
  - 现实世界的“任务”
  - 效率
  - 可信度
  - 基准指令调整
  - 结盟
    - 安全对齐（无害）
    - 真实性校准（诚实）
    - 提示实用指南（有用）
    - 开源社区的协同努力
- 使用和提取（模型和数据）

模特实用指南

BERT 风格语言模型：编码器-解码器或仅编码器

BERT BERT：用于语言理解的深度双向 Transformer 预训练，2018 年，论文
RoBERTa RoBERTa：一种稳健优化的 BERT 预训练方法，2019 年，论文
DistilBERT DistilBERT，BERT 的精简版：更小、更快、更便宜、更轻，2019 年，论文
ALBERT ALBERT：用于语言表征自监督学习的精简版 BERT，2019 年，论文
UniLM统一语言模型预训练，用于自然语言理解和生成，2019 年论文
ELECTRA ELECTRA：将预训练文本编码器用作鉴别器而非生成器，2020 年，论文
T5 “使用统一的文本到文本转换器探索迁移学习的极限”。Colin Raffel 等人。JMLR 2019。论文
GLM “GLM-130B：开放式双语预训练模型”。2022 年。论文
AlexaTM “AlexaTM 20B：使用大规模多语言 Seq2Seq 模型进行小样本学习”。Saleh Soltan 等人。arXiv 2022。论文
ST-MoE ST-MoE：设计稳定且可转移的稀疏专家模型。2022 年论文

GPT 风格的语言模型：仅解码器

GPT通过生成式预训练提高语言理解能力。2018 年。论文
GPT-2语言模型是无监督的多任务学习器。2018 年。论文
GPT-3 “语言模型是小样本学习者”。NeurIPS 2020。论文
OPT “OPT：开放预训练 Transformer 语言模型”。2022 年。论文
PaLM “PaLM：使用路径扩展语言建模”。Aakanksha Chowdhery 等人。arXiv 2022。论文
BLOOM “BLOOM：176B 参数开放获取多语言模型”。2022 年。论文
MT-NLG “使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B，一种大规模生成语言模型”。2021 年。论文
GLaM “GLaM：使用混合专家高效扩展语言模型”。ICML 2022。论文
Gopher “扩展语言模型：Gopher 训练的方法、分析和见解”。2021 年。论文
chinchilla “训练计算优化大型语言模型”。2022 年。论文
LaMDA “LaMDA：对话应用的语言模型”。2021 年。论文
LLaMA “LLaMA：开放高效的基础语言模型”。2023 年。论文
GPT-4 《GPT-4技术报告》。2023年。论文
BloombergGPT BloombergGPT：面向金融的大型语言模型，2023 年，论文
GPT-NeoX-20B：“GPT-NeoX-20B：一种开源自回归语言模型”。2022 年。论文
PaLM 2：“PaLM 2 技术报告”。2023 年。技术报告
LLaMA 2：“Llama 2：开放基础和微调聊天模型”。2023 年。论文
Claude 2：“模型卡和 Claude 模型评估”。2023.模型卡

数据实用指南

预训练数据

RedPajama，2023年。回购
The Pile：用于语言建模的 800GB 多样化文本数据集，Arxiv 2020。论文
预训练目标如何影响大型语言模型对语言属性的学习？，ACL 2022。论文
神经语言模型的缩放定律，2020 年。论文
以数据为中心的人工智能：一项调查，2023 年。论文
GPT 的能力是如何获得的？语言模型的新兴能力溯源，2022 年。博客

微调数据

零样本文本分类基准测试：数据集、评估和蕴涵方法，EMNLP 2019。论文
语言模型是小样本学习器，NIPS 2020。论文
LLM 的合成数据生成是否有助于临床文本挖掘？ Arxiv 2023论文

测试数据/用户数据

自然语言理解中大型语言模型的快捷学习：一项调查，Arxiv 2023。论文
关于 ChatGPT 的稳健性：对抗性和分布外视角Arxiv，2023 年。论文
SuperGLUE：通用语言理解系统的更粘性基准Arxiv 2019。论文

NLP 任务实用指南

我们为用户的 NLP 应用构建了一个选择 LLM 或微调模型的决策流程~\protect\footnotemark。该决策流程可帮助用户评估其手头的下游 NLP 应用是否满足特定条件，并根据该评估确定 LLM 或微调模型是否是其应用的最合适选择。

传统NLU任务

民事评论数据集上的恶意评论分类基准Arxiv 2023论文
chatgpt 是通用的自然语言处理任务解决器吗？ Arxiv 2023论文
对新闻摘要的大型语言模型进行基准测试Arxiv 2022论文

生成任务

GPT-3 时代的新闻摘要与评价Arxiv 2022论文
chatgpt 是一款好用的翻译器吗？是的，使用 GPT-4 作为引擎Arxiv 2023论文
微软用于 WMT21 共享任务的多语言机器翻译系统、WMT2021论文
ChatGPT 也能理解吗？chatgpt 与 fine-tuned bert 的比较研究，Arxiv 2023，论文

知识密集型任务

衡量大规模多任务语言理解能力，ICLR 2021论文
超越模仿游戏：量化和推断语言模型的能力，Arxiv 2022论文
逆向扩展奖，2022 年链接
Atlas：使用检索增强语言模型进行小样本学习，Arxiv 2022论文
大型语言模型编码临床知识，Arxiv 2022论文

可扩展的能力

训练计算优化的大型语言模型，NeurIPS 2022论文
神经语言模型的缩放定律，Arxiv 2020论文
使用基于过程和结果的反馈解决数学应用题，Arxiv 2022论文
思维链提示在大型语言模型中引发推理，NeurIPS 2022论文
大型语言模型的新兴能力，TMLR 2022论文
逆向缩放可以变成 U 形，Arxiv 2022论文
面向大型语言模型的推理：一项调查，Arxiv 2022论文

具体任务

图像作为外语：针对所有视觉和视觉语言任务的 BEiT 预训练，Arixv 2022论文
PaLI：一种联合缩放的多语言语言图像模型，Arxiv 2022论文
AugGPT：利用 ChatGPT 进行文本数据增强，Arxiv 2023论文
GPT-3 是一个好的数据注释器吗？，Arxiv 2022论文
想降低标签成本？GPT-3 可以提供帮助，EMNLP 发现 2021论文
GPT3Mix：利用大规模语言模型进行文本增强，EMNLP 发现 2021论文
患者试验匹配法学硕士：隐私感知数据增强，以实现更好的性能和通用性，Arxiv 2023论文
ChatGPT 在文本注释任务上的表现优于众包工作者，Arxiv 2023论文
G-Eval：使用 GPT-4 进行 NLG 评估，具有更好的人体对齐效果，Arxiv 2023论文
GPTScore：按您的意愿评估，Arxiv 2023论文
大型语言模型是最先进的翻译质量评估工具，Arxiv 2023论文
ChatGPT 是一个好的 NLG 评估器吗？一项初步研究，Arxiv 2023论文

现实世界的“任务”

通用人工智能的火花：GPT-4 的早期实验，Arxiv 2023论文

效率

成本

Openai 的 GPT-3 语言模型：技术概述，2020 年。博客文章
测量云实例中人工智能的碳强度，FaccT 2022。论文
在人工智能领域，规模越大就越好吗？《自然》文章 2023。文章
语言模型是小样本学习器，NeurIPS 2020。论文
定价，OpenAI。博客文章

延迟

HELM：语言模型的整体评估，Arxiv 2022。论文

参数高效微调

LoRA：大型语言模型的低秩自适应，Arxiv 2021。论文
前缀调整：优化连续提示以进行生成，ACL 2021。论文
P-Tuning：快速调整可与跨尺度和任务的微调相媲美，ACL 2022。论文
P-Tuning v2：即时调整可与跨尺度和任务的通用微调相媲美，Arxiv 2022。论文

预训练系统

ZeRO：针对训练万亿参数模型的内存优化，Arxiv 2019。论文
Megatron-LM：使用模型并行训练数十亿参数语言模型，Arxiv 2019。论文
使用 Megatron-LM 在 GPU 集群上进行高效的大规模语言模型训练，Arxiv 2021。论文
减少大型 Transformer 模型中的激活重新计算，Arxiv 2021。论文

可信度

稳健性和校准

使用前校准：提高语言模型的少样本性能，ICML 2021。论文
SPeC：基于软提示的校准方法，用于减轻临床笔记摘要中的性能差异，Arxiv 2023。论文

虚假偏见

大型语言模型可能是懒惰的学习者：分析上下文学习中的捷径，ACL 2023论文的发现
自然语言理解中大型语言模型的快捷学习：一项调查，2023 年论文
减轻字幕系统中的性别偏见，WWW 2020论文
使用前校准：提高语言模型的少样本性能，ICML 2021论文
深度神经网络中的捷径学习，《自然机器智能》2020论文
基于提示的模型真的理解其提示的含义吗？，NAACL 2022论文

安全问题

GPT-4 系统卡片、2023 年论文
检测 llm 生成文本的科学，Arxiv 2023论文
刻板印象如何通过语言传播：社会类别和刻板印象传播 (scsc) 框架的回顾与介绍，传播研究评论，2019 年论文
性别差异：商业性别分类中的交叉准确度差异，FaccT 2018论文

基准指令调整

FLAN：微调语言模型是零样本学习器，Arxiv 2021论文
T0：多任务提示训练实现零样本任务泛化，Arxiv 2021论文
通过自然语言众包指令实现跨任务泛化，ACL 2022论文
Tk-INSTRUCT：超自然指令：通过声明性指令对 1600 多个 NLP 任务进行泛化，EMNLP 2022论文
FLAN-T5/PaLM：扩展指令微调语言模型，Arxiv 2022论文
Flan Collection：设计数据和方法以实现有效的指令调整，Arxiv 2023论文
OPT-IML：通过泛化视角扩展语言模型指令元学习，Arxiv 2023论文

结盟

根据人类偏好进行深度强化学习，NIPS 2017论文
学习从人类反馈中总结，Arxiv 2020论文
通用语言助理作为对齐实验室，Arxiv 2021论文
通过人类反馈的强化学习来训练一个有用且无害的助手，Arxiv 2022论文
教授语言模型以支持带有经过验证的引文的答案，Arxiv 2022论文
InstructGPT：训练语言模型遵循人类反馈的指令，Arxiv 2022论文
通过有针对性的人类判断改善对话代理的协调性，Arxiv 2022论文
奖励模型过度优化的缩放定律，Arxiv 2022论文
可扩展监督：衡量大型语言模型可扩展监督的进展，Arxiv 2022论文

安全对齐（无害）

红队语言模型与语言模型，Arxiv 2022论文
宪法人工智能：人工智能反馈的无害性，Arxiv 2022论文
大型语言模型中的道德自我纠正能力，Arxiv 2023论文
OpenAI：我们的 AI 安全方法，2023 年博客

真实性校准（诚实）

语言模型的强化学习，2023 年博客

提示实用指南（有用）

OpenAI Cookbook。博客
及时工程。博客
ChatGPT 为开发人员提供快速工程！ 课程

开源社区的协同努力

自我指导：将语言模型与自我生成的指令对齐，Arxiv 2022论文
羊驼.回购
小羊驼
多莉.博客
DeepSpeed-Chat .博客
GPT4All .仓库
OpenAssitant . Repo
ChatGLM . Repo
MOSS回购
Lamini .回购/博客

使用和限制

LLM 的使用限制（例如用于商业和研究目的）

LLMs	Model			Data
	License	Commercial Use	Other noteable restrictions	License	Corpus
Encoder-only
BERT series of models (general domain)	Apache 2.0	✅		Public	BooksCorpus, English Wikipedia
RoBERTa	MIT license	✅		Public	BookCorpus, CC-News, OpenWebText, STORIES
ERNIE	Apache 2.0	✅		Public	English Wikipedia
SciBERT	Apache 2.0	✅		Public	BERT corpus, 1.14M papers from Semantic Scholar
LegalBERT	CC BY-SA 4.0	❌		Public (except data from the Case Law Access Project)	EU legislation, US court cases, etc.
BioBERT	Apache 2.0	✅		PubMed	PubMed, PMC
Encoder-Decoder
T5	Apache 2.0	✅		Public	C4
Flan-T5	Apache 2.0	✅		Public	C4, Mixture of tasks (Fig 2 in paper)
BART	Apache 2.0	✅		Public	RoBERTa corpus
GLM	Apache 2.0	✅		Public	BooksCorpus and English Wikipedia
ChatGLM	ChatGLM License	❌	No use for illegal purposes or military research, no harm the public interest of society	N/A	1T tokens of Chinese and English corpus
Decoder-only
GPT2	Modified MIT License	✅	Use GPT-2 responsibly and clearly indicate your content was created using GPT-2.	Public	WebText
GPT-Neo	MIT license	✅		Public	Pile
GPT-J	Apache 2.0	✅		Public	Pile
---> Dolly	CC BY NC 4.0	❌		CC BY NC 4.0, Subject to terms of Use of the data generated by OpenAI	Pile, Self-Instruct
---> GPT4ALL-J	Apache 2.0	✅		Public	GPT4All-J dataset
Pythia	Apache 2.0	✅		Public	Pile
---> Dolly v2	MIT license	✅		Public	Pile, databricks-dolly-15k
OPT	OPT-175B LICENSE AGREEMENT	❌	No development relating to surveillance research and military, no harm the public interest of society	Public	RoBERTa corpus, the Pile, PushShift.io Reddit
---> OPT-IML	OPT-175B LICENSE AGREEMENT	❌	same to OPT	Public	OPT corpus, Extended version of Super-NaturalInstructions
YaLM	Apache 2.0	✅		Unspecified	Pile, Teams collected Texts in Russian
BLOOM	The BigScience RAIL License	✅	No use of generating verifiably false information with the purpose of harming others; content without expressly disclaiming that the text is machine generated	Public	ROOTS corpus (Lauren¸con et al., 2022)
---> BLOOMZ	The BigScience RAIL License	✅	same to BLOOM	Public	ROOTS corpus, xP3
Galactica	CC BY-NC 4.0	❌		N/A	The Galactica Corpus
LLaMA	Non-commercial bespoke license	❌	No development relating to surveillance research and military, no harm the public interest of society	Public	CommonCrawl, C4, Github, Wikipedia, etc.
---> Alpaca	CC BY NC 4.0	❌		CC BY NC 4.0, Subject to terms of Use of the data generated by OpenAI	LLaMA corpus, Self-Instruct
---> Vicuna	CC BY NC 4.0	❌		Subject to terms of Use of the data generated by OpenAI; Privacy Practices of ShareGPT	LLaMA corpus, 70K conversations from ShareGPT.com
---> GPT4ALL	GPL Licensed LLaMa	❌		Public	GPT4All dataset
OpenLLaMA	Apache 2.0	✅		Public	RedPajama
CodeGeeX	The CodeGeeX License	❌	No use for illegal purposes or military research	Public	Pile, CodeParrot, etc.
StarCoder	BigCode OpenRAIL-M v1 license	✅	No use of generating verifiably false information with the purpose of harming others; content without expressly disclaiming that the text is machine generated	Public	The Stack
MPT-7B	Apache 2.0	✅		Public	mC4 (english), The Stack, RedPajama, S2ORC
falcon	TII Falcon LLM License	✅/❌	Available under a license allowing commercial use	Public	RefinedWeb