【0】Exploiting Cloze-Questions for Few-Shot Text Classification and Natural Language Inference
提出了Pet : 小模型半监督,匹配下游任务。
其中总结了若干prompt的pattern
综述
这篇论文提出cloze-style prompt-based fine-tuning方法Pet(Pattern Exploiting Training)
Pet是一种半监督的训练程序,将输入示例重新定义为cloze-风格的短语,以帮助语言模型理解给定的任务
这些短语被用来为大量未标记的示例分配soft标签。最后,对所得到的训练集进行标准的监督训练。
对于几种任务和语言,PET在低资源设置下的性能大大优于监督训练和强半监督方法
简介
Learn from examples:一个模型在一组有标记的例子上进行训练,然后从中将其推广到看不见的数据。
考虑到语言、领域,任务的不同,以及注释数据的成本,在NLP中少标签训练语料是常见的。这让基于少量标签训练成为一个非常重要的研究领域。
下游任务描述:
但是,将标准的监督学习应用于小的训练集通常表现不佳。(训练样本太少)
但是,如果我们清楚了下游任务描述后,对于小样本进行训练变得简单得多。
随着GPT(Radfordetal.)、BERT(Devlin等人,2018)、Devlinetal.,2019)和RoBERTa(Liuetal.,2019)的兴起,为神经结构提供任务描述的想法已经变得可行。
在本文中,作者成功地将任务描述和小样本标准监督学习结合在一起
pet的工作原理
PET分三个步骤工作:
首先,对于每个模式,在一个小的训练集T上完成一个单独的PLM。
然后,所有模型的集成被用于用软标签标注一个大的未标记数据集D。
最后,在软标记数据集上训练一个标准的分类器。作者还设计了iPET,这是一种PET的迭代变体,其中这个过程随着训练集大小的增加而重复。
pattern
-
Yep
-
AG’s News
-
Yahoo
-
MNLI
-
X-Stance
结论
- 提供任务描述的预训练模型可以与标准的监督训练相结合。
- 当初始训练数据量有限时,PET比标准监督训练和强半监督应用有很大的改进