近期工作: GradTS-A Gradient-Based Automatic Auxiliary Task Selection Method Based on Transformer

名称

GradTS: A Gradient-Based Automatic Auxiliary Task Selection Method Based on Transformer Networks
收录于:EMNLP 2021,本人二作
是上一篇工作的延伸2,Transformer的一个empirical的应用探究

大致介绍

前提
  1. 曾有工作表明1 ,预训练语言模型Transformer等,可以捕捉学习到一些隐藏的linguistic features,语言语法特点(e.g., syntactic)
  2. 有工作曾经指出3,Transformer在某个task上,heads的importances是可以通过该任务上的gradient来reveal的
  3. 根据我们上一篇工作的研究结论2,transformer 的head importance是language-shared并且很大程度上应该是task-specific
动机

根据前提,我们猜想transformer在某种任务上accumulate的gradient,很大程度上能反映当前task所需要的一些语言语法特点 (通过head importance反映)。既然如此,不同task的head importance matrix之间的correlation,一定程度上能够反映出任务之间的相似性。很自然地,我们想利用这些task-specific的head importance correlation来进行MTL(multi task trainig) 的auxiliary task selection,甚至是instance selection (剔除auxiliary set中noisy的training instance)

方法

和我们上一篇工作的方法类似,我们还是需要首先获得heads importances,分为如下三步(与上篇工作略有不同的是,第二步中使用的是training set):

  1. 在某个任务的training set上tune transformer几轮 (实验中为5)
  2. tune过的模型继续在training set上进行loss back propagation,但是不会update parameter,将每个batch反馈的gradient (绝对值) 累积起来,获得一个12 * 12的mat (以bert-base为例)
  3. 对这个mat进行layer-wise normalization ,和global min-max normalization.

以此获得每个task的head-importance ranking distribution。类似地,我们也能把每个instance的head distribution获得。这些head importance 我们都可以存储起来,用作后续的task selection和instance selection。

我们的MTL方法主要有三种:

  1. GradTS-thres:对于main task,取一个task-level threshold,任何高于此thres的其他task都会被当做是auxiliary task
  2. GradTS-trial: 对于main task,依据head importance matrix之间的kendall correlation作为task之间相似程度的度量依据,由近及远add auxiliary task,直到eval score (我们取一部分training的subset作为eval)下降时停止,筛选出auxiliary task set
  3. GradTS-fg:在GradTS-trial筛选出的task set的基础上,我们对每一个auxiliary task都去构造一个subset。即取一个instance-level threshold,将auxiliary trianing instances中,所有高于此thres的instance筛选出来,作为main task的auxiliary set

由于我们的方法是依赖于head matrix来挑选,所以一旦我们事先将所有task的head importance matrix都生成并存储起来,后续进行MTL将无需再进行额外的task selection步骤,从某种程度上是time-economic和memory-economic的,而且candidate task越多,这个优势体现得也越明显。

实验

我们主要是在GLUE的8个任务上进行MTL的实验,对照baseline是AutoSem4(因为其他MTL的baseline是没有像我们一样构造subset的,相对而言Autosem更好比较,也是最近的一篇工作)

实验主表:
在这里插入图片描述

我们还额外将meld,d-meld以及三个sequence labeling (pos、ner、sc)分别加入candidate task中,来试验我们方法对于困难的NLP task selection,以及种类差别很大的task的鲁棒性。

另外,我们还设计了一些比较有意思的discussion来对照不用language model selection结果的移植性,具体内容和细节请读者参考原文.

Q&A

文章篇幅有限,奈何实验量很大,我们没有办法在文中一一列举细节,笔者想了一些读者可能在阅读我们的工作时会遇到的一些疑问,并加以解答:


Q1:为何上一篇工作中,我们在eval set上accumulate gradient,而本工作我们在training set上tune和accumulate gradient?
A1:主要原因有如下三个方面:

  1. GLUE task只提供了eval set,没有test set,我们汇报的score全是在eval set上测得的 (因为实验量太大,我们没有办法在leaderboard上submit test result),自然不能使用eval set来帮助我们实验
  2. GLUE task的有一些eval set数据量很小,很大程度上也不能用来作为task-specific的gradient来源
  3. 侧重点略微不同,导致setting上有差异。上一篇工作我们主要侧重于探究不同语言之间head mask的共享,我们想要知道的是,Transformer哪些heads是对任务的contribution不大的,我们把这些heads mask掉,这个时候eval set是合适的,因为eval set就是来帮助进行模型评估的(即利用eval set帮助我们评估heads的importance,需要有一份模型没有见过的数据集);而本篇工作,我们并不是想要去评估head,我们想要知道task之间的相近程度,需要知道的是能够identify 这个task的特点的head ranking的分布,而与task最密切相关的portion自然是training set。

Q2:为何GradTS-fg在有些情况下要比GradTS-trial效果差?
A2:主要是quantityquality之间的trade off导致的。我们在实验的过程中其实观察到过:依据GradTS-fg的方法,我们逐渐减小instance-threshold,让subset中的instance的占比按照70%~90%逐渐提升,我们会观察到最终main task eval的性能有局部的明显抖动,尤其是一些本身trainng instance就比较少task(e.g., RTE、MRPC),对auxiliary task的数据量比较依赖,抖动会更加剧烈,局部甚至会有trough,明显低于100% (即GradTS-trial的结果)。由于我们GradTS-fg是采用了统一的threshold,加之我们的threshold也是在某些tasks的training set上取了一小部分进行tune的 (我们没有透露任何eval set),所以最终的fg方法是有可能比trial要低的。
(另外,AutoSem的方法也会有这种现象,部分AutoSem结果比AutoSem-p1要低许多,当然这与该算法本身的随机性大也有一定关系)


ref

  • [1] esse Vig and Yonatan Belinkov. 2019. Analyzing the structure of attention in a transformer language model. In Proceedings of the 2019 ACL Workshop
    BlackboxNLP:BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 63–76, Florence, Italy. As- sociation for Computational Linguistics.
  • [2] Ma W, Zhang K, Lou R, et al. Contributions of Transformer Attention Heads in Multi-and Cross-lingual Tasks[J]. arXiv preprint arXiv:2108.08375, 2021.
  • [3] Paul Michel, Omer Levy, and Graham Neubig. 2019. Are sixteen heads really better than one? In Advances in Neural Information Processing Systems, volume 32, pages 14014–14024. Cur- ran Associates, Inc.
  • [4] Han Guo, Ramakanth Pasunuru, and Mohit Bansal. 2019. AutoSeM: Automatic task selec- tion and mixing in multi-task learning. In Pro- ceedings of the 2019 Conference of the North American Chapter of the Association for Com- putational Linguistics: Human Language Tech- nologies, Volume 1 (Long and Short Papers), pages 3520–3531, Minneapolis, Minnesota. As- sociation for Computational Linguistics.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值