0、简介
- 论文名字:Learning from Task Descriptions
- 下载地址:https://www.aclweb.org/anthology/2020.emnlp-main.105/
- 会议:ACL 2020
1、论文的motivation
机器学习的任务大都是从训练样本中学习样本的分布,然后用学习到的分布在测试集上进行预测。本文提出一种框架从任务描述中进行学习,并构建了ZEST数据集,该数据集能用于从任务描述中学习的任务。
在读这篇论文之前,单纯的看标题,感觉是一篇不可思议的工作,直接从task的描述生成模型。但论文通篇读下来,发现论文做的数据集和QA任务的数据集基本差不多,只不过作者给数据集中的成分起了和QA数据集不同的名字,并且提出了针对“task descriptions to model”的新的评测指标。下面本博客从数据集制作、baseline两个方面来介绍这篇论文。
2、数据集制作
下面给出数据集的一个表格
最左边一列是task的类别,第二列的Question,相当于输入x,第三列的Input Passage,相当于description,第4列的Answer相当于输出y。
制作数据集的时候,base类型task的description是从U.S. presidents, dog breeds, U.S. national parks三个领域收集的文章,Question是根据这些文章内容,也就是Input Passage提出的问题,这里的问题是人工提出的。下面四种类型都是根据Base的问题变化而来的。
- Paraphrase:是在Base的基础上,Question 更改措辞方式,但是不更改Question表达的意思。
- Semantic Flips:是在Base的基础上,对Question做尽可能小的改动,但是改动改变了Question表达的意思
- Composiyion: 使用and、or等连接词,将base任务组成新的任务
- output Structure:输出不是简单的分类,而是有结构的输出,相当于做了实体抽取和关系的抽取
3、Baseline
3.1 评价指标
因为本文提出的数据是针对“task description”的数据集,一般使用的指标F1值不适合该数据集。因此本文提出了一个新的评价指标C@T。举个例子来说明,对于Base类的任务,单个的任务可以用accuracy来评价,那么C@90是0.7就代表模型在70%的Base类任务上,准确率可以达到90%。这里准确率可以根据任务改为F1等其他指标。
3.2 Basline
本文使用预训练模型T5和BART作为baseline,采用F1值作为单个任务的评价指标,下面是模型结果
可以看出T5的性能要比BART的好,但是仍然都远低于人类的水平。本文还用其他的QA数据集对T5的模型进行训练,结果是w/MTL那行,可以看出使用额外的训练数据并没有让模型性能提升太多
4、我的想法
这篇论文提出的数据集和QA任务的数据集几乎一样,只不过换了一种描述方法,并且使用了一个新的评价指标,但本质上来讲,还是QA的任务。所以这里的task description和我读论文前预想的不太一样。
这篇论文提到,通过对任务描述的学习,进行zero-shot学习
Second, by providing the model with the task description,we expect it to generalize to unseen tasks at test time in a zero-shot way.
再QA任务中,input passage和question都是输入,在这篇论文中,input passage成了description,然后作者就把在该数据集上的模型学习当作zero-shot(这里也可能是我理解偏差)。作者为了体现zero-shot的特点,baseline都选取了预训练模型,这一点有待商榷。