动机
-
transformer在包括但不限于自然语言、图像、视频和音频在内的广泛领域都显示出巨大的成功。
前人的研究表明,在大型语料库中训练的transformer在一系列的下游语言任务中学习了强大的表征。在视觉领域中,基于transformer的模型在图像分类、目标检测和全景分割方面取得了非常不错的结果。除了对单个模态建模外,transformer模型在视觉问答等联合视觉和语言推理任务中也表现出很强的性能。
-
将transformer应用于跨领域的不同任务。
尽管将transformer应用于特定领域方面取得了上述成就,但在将transformer应用于跨领域的不同任务方面还没有太多的先验工作。在目睹了transformer的成功之后,各种问题自然产生了:一个transformer模型能否被训练既可以在文本输入做自然语言推理又可以在图像上做目标检测?或一个基于transformer的图像分类器是否也可以挖掘文本隐含信息?总体而言,作为迈向通用智能的一步,是否有可能建立一个同时处理多种领域任务的单一模型?
-
以前的工作试图解决其中一些问题,但范围有限:
• 仅适用于来自单个领域或特定多模态领域的任务;ViT和DETR专注于视觉任务,BERT及其衍生工作只处理语言任务,而VisualBERT、VILBERT等多模态transformer工作只研究视觉和语言的特定多模态领域。
• 涉及每个任务的特定于任务的微调,而不是在任务之间利用任何共享参数,通常以N个任务的N倍的参数结束,例如,必须用BERT分别微调每个任务的模型。
• 只从一个领域对相关或相似的任务执行多任务,有时使用硬编码的训练策略;例如,T5只适用于语言领域的任务,而VILBERT-MT只适用于相关的视觉和语言任务。
方法
提出UniT:统一的Transfomer模型,以同时学习跨领域最重要的任务,从目标