近期工作: GradTS-A Gradient-Based Automatic Auxiliary Task Selection Method Based on Transformer

本文链接：https://blog.csdn.net/weixin_43301333/article/details/120019322

名称

GradTS: A Gradient-Based Automatic Auxiliary Task Selection Method Based on Transformer Networks
收录于：EMNLP 2021，本人二作
是上一篇工作的延伸²，Transformer的一个empirical的应用探究

大致介绍

前提

曾有工作表明¹ ，预训练语言模型Transformer等，可以捕捉学习到一些隐藏的linguistic features，语言语法特点(e.g., syntactic)
有工作曾经指出³，Transformer在某个task上，heads的importances是可以通过该任务上的gradient来reveal的
根据我们上一篇工作的研究结论²，transformer 的head importance是language-shared并且很大程度上应该是task-specific的

动机

根据前提，我们猜想transformer在某种任务上accumulate的gradient，很大程度上能反映当前task所需要的一些语言语法特点 (通过head importance反映)。既然如此，不同task的head importance matrix之间的correlation，一定程度上能够反映出任务之间的相似性。很自然地，我们想利用这些task-specific的head importance correlation来进行MTL(multi task trainig) 的auxiliary task selection，甚至是instance selection (剔除auxiliary set中noisy的training instance)

方法

和我们上一篇工作的方法类似，我们还是需要首先获得heads importances,分为如下三步(与上篇工作略有不同的是，第二步中使用的是training set):

在某个任务的training set上tune transformer几轮 (实验中为5)
tune过的模型继续在training set上进行loss back propagation，但是不会update parameter，将每个batch反馈的gradient (绝对值) 累积起来，获得一个12 * 12的mat (以bert-base为例)
对这个mat进行layer-wise normalization ，和global min-max normalization.

以此获得每个task的head-importance ranking distribution。类似地，我们也能把每个instance的head distribution获得。这些head importance 我们都可以存储起来，用作后续的task selection和instance selection。

我们的MTL方法主要有三种：

GradTS-thres：对于main task，取一个task-level threshold，任何高于此thres的其他task都会被当做是auxiliary task
GradTS-trial: 对于main task，依据head importance matrix之间的kendall correlation作为task之间相似程度的度量依据，由近及远add auxiliary task，直到eval score (我们取一部分training的subset作为eval)下降时停止，筛选出auxiliary task set
GradTS-fg:在GradTS-trial筛选出的task set的基础上，我们对每一个auxiliary task都去构造一个subset。即取一个instance-level threshold，将auxiliary trianing instances中，所有高于此thres的instance筛选出来，作为main task的auxiliary set

由于我们的方法是依赖于head matrix来挑选，所以一旦我们事先将所有task的head importance matrix都生成并存储起来，后续进行MTL将无需再进行额外的task selection步骤，从某种程度上是time-economic和memory-economic的，而且candidate task越多，这个优势体现得也越明显。

实验

我们主要是在GLUE的8个任务上进行MTL的实验，对照baseline是AutoSem⁴(因为其他MTL的baseline是没有像我们一样构造subset的，相对而言Autosem更好比较，也是最近的一篇工作)

实验主表：
在这里插入图片描述

我们还额外将meld，d-meld以及三个sequence labeling (pos、ner、sc)分别加入candidate task中，来试验我们方法对于困难的NLP task selection，以及种类差别很大的task的鲁棒性。

另外，我们还设计了一些比较有意思的discussion来对照不用language model selection结果的移植性，具体内容和细节请读者参考原文.

Q&A

文章篇幅有限，奈何实验量很大，我们没有办法在文中一一列举细节，笔者想了一些读者可能在阅读我们的工作时会遇到的一些疑问，并加以解答：

Q1:为何上一篇工作中，我们在eval set上accumulate gradient，而本工作我们在training set上tune和accumulate gradient？
A1:主要原因有如下三个方面:

GLUE task只提供了eval set，没有test set，我们汇报的score全是在eval set上测得的 (因为实验量太大，我们没有办法在leaderboard上submit test result)，自然不能使用eval set来帮助我们实验
GLUE task的有一些eval set数据量很小，很大程度上也不能用来作为task-specific的gradient来源
侧重点略微不同，导致setting上有差异。上一篇工作我们主要侧重于探究不同语言之间head mask的共享，我们想要知道的是，Transformer哪些heads是对任务的contribution不大的，我们把这些heads mask掉，这个时候eval set是合适的，因为eval set就是来帮助进行模型评估的(即利用eval set帮助我们评估heads的importance，需要有一份模型没有见过的数据集)；而本篇工作，我们并不是想要去评估head，我们想要知道task之间的相近程度，需要知道的是能够identify 这个task的特点的head ranking的分布，而与task最密切相关的portion自然是training set。

Q2:为何GradTS-fg在有些情况下要比GradTS-trial效果差？
A2:主要是quantity和quality之间的trade off导致的。我们在实验的过程中其实观察到过：依据GradTS-fg的方法，我们逐渐减小instance-threshold，让subset中的instance的占比按照70%~90%逐渐提升，我们会观察到最终main task eval的性能有局部的明显抖动，尤其是一些本身trainng instance就比较少task(e.g., RTE、MRPC),对auxiliary task的数据量比较依赖，抖动会更加剧烈，局部甚至会有trough，明显低于100% (即GradTS-trial的结果)。由于我们GradTS-fg是采用了统一的threshold，加之我们的threshold也是在某些tasks的training set上取了一小部分进行tune的 (我们没有透露任何eval set)，所以最终的fg方法是有可能比trial要低的。
(另外，AutoSem的方法也会有这种现象，部分AutoSem结果比AutoSem-p1要低许多，当然这与该算法本身的随机性大也有一定关系)

ref

[1] esse Vig and Yonatan Belinkov. 2019. Analyzing the structure of attention in a transformer language model. In Proceedings of the 2019 ACL Workshop
BlackboxNLP:BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 63–76, Florence, Italy. As- sociation for Computational Linguistics.

[2] Ma W, Zhang K, Lou R, et al. Contributions of Transformer Attention Heads in Multi-and Cross-lingual Tasks[J]. arXiv preprint arXiv:2108.08375, 2021.

[3] Paul Michel, Omer Levy, and Graham Neubig. 2019. Are sixteen heads really better than one? In Advances in Neural Information Processing Systems, volume 32, pages 14014–14024. Cur- ran Associates, Inc.

[4] Han Guo, Ramakanth Pasunuru, and Mohit Bansal. 2019. AutoSeM: Automatic task selec- tion and mixing in multi-task learning. In Pro- ceedings of the 2019 Conference of the North American Chapter of the Association for Com- putational Linguistics: Human Language Tech- nologies, Volume 1 (Long and Short Papers), pages 3520–3531, Minneapolis, Minnesota. As- sociation for Computational Linguistics.