论文阅读笔记:Learning from Task Descriptions

0、简介

  • 论文名字:Learning from Task Descriptions
  • 下载地址:https://www.aclweb.org/anthology/2020.emnlp-main.105/
  • 会议:ACL 2020

1、论文的motivation

机器学习的任务大都是从训练样本中学习样本的分布,然后用学习到的分布在测试集上进行预测。本文提出一种框架从任务描述中进行学习,并构建了ZEST数据集,该数据集能用于从任务描述中学习的任务。

在读这篇论文之前,单纯的看标题,感觉是一篇不可思议的工作,直接从task的描述生成模型。但论文通篇读下来,发现论文做的数据集和QA任务的数据集基本差不多,只不过作者给数据集中的成分起了和QA数据集不同的名字,并且提出了针对“task descriptions to model”的新的评测指标。下面本博客从数据集制作、baseline两个方面来介绍这篇论文。

2、数据集制作

下面给出数据集的一个表格

在这里插入图片描述

最左边一列是task的类别,第二列的Question,相当于输入x,第三列的Input Passage,相当于description,第4列的Answer相当于输出y。

制作数据集的时候,base类型task的description是从U.S. presidents, dog breeds, U.S. national parks三个领域收集的文章,Question是根据这些文章内容,也就是Input Passage提出的问题,这里的问题是人工提出的。下面四种类型都是根据Base的问题变化而来的。

  • Paraphrase:是在Base的基础上,Question 更改措辞方式,但是不更改Question表达的意思。
  • Semantic Flips:是在Base的基础上,对Question做尽可能小的改动,但是改动改变了Question表达的意思
  • Composiyion: 使用and、or等连接词,将base任务组成新的任务
  • output Structure:输出不是简单的分类,而是有结构的输出,相当于做了实体抽取和关系的抽取

3、Baseline

3.1 评价指标

因为本文提出的数据是针对“task description”的数据集,一般使用的指标F1值不适合该数据集。因此本文提出了一个新的评价指标C@T。举个例子来说明,对于Base类的任务,单个的任务可以用accuracy来评价,那么C@90是0.7就代表模型在70%的Base类任务上,准确率可以达到90%。这里准确率可以根据任务改为F1等其他指标。

3.2 Basline

本文使用预训练模型T5和BART作为baseline,采用F1值作为单个任务的评价指标,下面是模型结果

在这里插入图片描述

可以看出T5的性能要比BART的好,但是仍然都远低于人类的水平。本文还用其他的QA数据集对T5的模型进行训练,结果是w/MTL那行,可以看出使用额外的训练数据并没有让模型性能提升太多

4、我的想法

这篇论文提出的数据集和QA任务的数据集几乎一样,只不过换了一种描述方法,并且使用了一个新的评价指标,但本质上来讲,还是QA的任务。所以这里的task description和我读论文前预想的不太一样。

这篇论文提到,通过对任务描述的学习,进行zero-shot学习

Second, by providing the model with the task description,we expect it to generalize to unseen tasks at test time in a zero-shot way.

再QA任务中,input passage和question都是输入,在这篇论文中,input passage成了description,然后作者就把在该数据集上的模型学习当作zero-shot(这里也可能是我理解偏差)。作者为了体现zero-shot的特点,baseline都选取了预训练模型,这一点有待商榷。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值