论文解读：Finetuned Language Models Are Zero-shot Learners

最新推荐文章于 2024-11-28 15:37:50 发布

华师数据学院·王嘉宁

最新推荐文章于 2024-11-28 15:37:50 发布

阅读量3.9k

点赞数 3

分类专栏： # Prompt-Tuning🔥🔥🔥 论文解读文章标签：语言模型自然语言处理深度学习

本文链接：https://blog.csdn.net/qq_36426650/article/details/122256686

版权

论文解读同时被 2 个专栏收录

104 篇文章

订阅专栏

Prompt-Tuning🔥🔥🔥

31 篇文章

订阅专栏

论文介绍了FLAN（Finetuned Language Net），这是一种通过指令微调（Instruction-tuning）预训练语言模型的方法，以实现对多种NLP任务的零样本学习。研究对比了Pretrain-Finetune、Prompt-Tuning和Instruction-Tuning三种方法，其中FLAN在未见过的任务上表现出色。实验涉及62个NLP任务，将它们按类型分组并进行混合微调，每个任务使用多个任务描述模板。模型基于单向Decoder的Transformer，经过大规模语料预训练和多任务指令微调。该工作强调了在评估时任务簇的独立性，以测试模型泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文解读：Finetuned Language Models Are Zero-shot Learners

简要信息：

序号	属性	值
1	模型名称	Instruction-tuning
2	发表位置	2021
3	所属领域	自然语言处理、预训练语言模型
4	研究内容	预训练语言模型、多任务学习
5	核心内容	instruction, prompt
6	GitHub源码	https://github.com/google-research/flan
7	论文PDF	https://arxiv.org/pdf/2109.01652.pdf

一、概念：

Instruction-tuning——finetuning language models on a collection of tasks (more than 60 NLP tasks) described via instructions

本文提出一种基于instruction-tuning的方法叫做FLAN（Finetuned LAnguage Net）
评估方法：对所有的NLP task，根据其任务类型和目标划分若干个簇，随机挑选一个簇内的所有task作为评估，其他所有簇的task用于instruction-tuning

we group NLP tasks into clusters based on their task types and hold out each cluster for evaluation while instruction tuning FLAN on all other clusters.

在这里插入图片描述
首先在包括commonsense reasoning、machine translation、sentiment analysis等NLP task上进行微调，然后在从未见过的natural language inference任务上进行zero-shot evaluation

Instruction-tuning与Fine-tuning和Prompt-Tuning的对比：
在这里插入图片描述

Pretrain-Finetune：现在大规模语料上根据某一个（几个）训练目标进行预训练，然后主要针对某一个task进行微调；
Prompting（Prompt-based Fine-tuning）：通用选择预训练语言模型，为每个样本生成一个prompt模板，并采用类似完形填空的模式，在某一个具体的task上微调；
Instruction-Tuning：在预训练语言模型的基础上，获得若干混合的NLP task上进行微调，然后在某一个具体的task上进行评估（zero-shot）

二、FLAN

首先整理了62个NLP task，并进行了归类（cluster），如下图所示：
在这里插入图片描述
可知，一共划分了12个cluster

我们定义task表示一个数据集，例如RTE表示一个task；
对于每个task，手动构建10个template，作为描述该任务的instruction；
为了增加多样性，对于每个任务，我们包括多达3个“扭转任务”的模板；
在混合的task上进行instruction-tuning，对于每个task，随机挑选template；
例如下图，给定某个NLI任务的样本，构建与其有关的若干个template

在这里插入图片描述
FLAN是在unseen task上进行zero-shot evaluation，那如何定义unseen task？
一个task $\mathcal{T}$ 对于FLAN是unseen的（即没有在instruction-tuning出现过），当且仅当这个task所属的clust的所有task都没有在instruction-tuning出现过。

In this work, we only consider task $\mathcal{T}$ unseen at evaluation time if no tasks from any clusters that $\mathcal{T}$ belongs to were seen during fine tuning.

任务的目标主要分为classification和generation两种

generation：基于instruction-tuning的FLAN本质就是一个语言模型，输出部分即为free-text，因此对于纯生成式任务无需修改；
classification：先前工作通过添加template企图让模型生成出预设的几个label word，但是作者认为并不合理，因此在此基础上，添加了一个option；

三、模型训练：

使用left-to-right（单向），只包含decoder部分的transformer模型，共计137B个参数，在未经处理的语料上（10%非英文，包含大量code，对话文本等），预训练的模型命名为BaseLM。

在Instruction-tuning阶段，混合了所有数据集和每个数据集的随机样本示例。有些数据集有超过1000万个训练示例(例如，机器翻译)，因此我们将每个数据集的训练示例数量限制为30000个。其他数据集很少有训练示例(例如，CommitmentBank只有250个)，为了防止这些数据集被边缘化，我们采用示例-比例混合方案(examples-proportional mixing scheme，Raffel et al.， 2020)，混合率最大为3000。fine-tunine模型30000个step，每个step的batch size为8192，优化器为Adafactor，学习率3e-5，输入输出长度分别为1024和256。