解密Prompt系列4. 升级Instruction Tuning：Flan/T0/InstructGPT/TKInstruct

液态不合群

已于 2023-07-11 13:47:26 修改

阅读量917

点赞数

文章标签：数据库人工智能低代码

于 2023-07-11 13:47:04 首次发布

本文链接：https://blog.csdn.net/sdgfafg_25/article/details/131658334

版权

本文介绍了指令微调在大模型中的应用，包括Google的Flan、BigScience的T0、OpenAI的InstructGPT和AllenAI的TK-Instruct。这些模型通过指令集和多任务训练提升模型的零样本和少样本学习能力，其中InstructGPT在用户交互和有害性评估上有独特之处。

摘要由CSDN通过智能技术生成

这一章我们聊聊指令微调，指令微调和前3章介绍的prompt有什么关系呢？哈哈只要你细品，你就会发现大家对prompt和instruction的定义存在些出入，部分认为instruction是prompt的子集，部分认为instruction是句子类型的prompt。详情获取：更多信息

对比前三章介绍过的主流prompt范式，指令微调有如下特点

面向大模型：指令微调任务的核心是释放模型已有的指令理解能力(GPT3中首次提出)，因此指令微调是针对大模型设计的，因为指令理解是大模型的涌现能力之一。而prompt部分是面向常规模型例如BERT
预训练：与其说是instruction tunning，更像是instruction pretraining，是在预训练阶段融入多样的NLP指令微调，而非针对特定下游任务进行微调，而之前的promp主要服务微调和zeroshot场景
multitask：以下模型设计了不同的指令微调数据集，但核心都是多样性，差异化，覆盖更广泛的NLP任务，而之前的prompt模型多数有特定的任务指向
泛化性：在大模型上进行指令微调有很好的泛化性，在样本外指令上也会存在效果提升
适用模型：考虑指令都是都是sentence形式的，因此只适用于En-Dn，Decoder only类的模型。而之前的prompt部分是面向Encoder的完形填空类型

下面我们介绍几个指令微调相关的模型，模型都还是那个熟悉的模型，核心的差异在于微调的指令数据集不同，以及评估侧重点不同，每个模型我们只侧重介绍差异点。按时间顺序分别是Flan， T0，InstructGPT， TK-Instruct

Google: Flan

paper: 2021.9 Finetuned Langauge Models are zero-shot learners

github：GitHub - google-research/FLAN

模型：137B LaMDA-PT

一言以蔽之：抢占先机，Google第一个提出指令微调可以解锁大模型指令理解能力

谷歌的Flan是第一个提出指令微调范式的，目的和标题相同使用指令微调来提升模型的zero-shot能力。论文使用的是137B的LAMDA-PT一个在web，代码，对话， wiki上预训练的单向语言模型。