本文提出UniT:统一的Transformer编码器-解码器体系结构,能够在单个模型中连接和学习多个任务和领域,均能达到SOTA!代码即将开源!
Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer
- 作者单位:Facebook(FAIR)
- 主页:https://mmf.sh/
- 论文下载链接:https://arxiv.org/abs/2102.10772
我们提出UniT:统一Transfomer模型,以同时学习跨领域最重要的任务,从目标检测到语言理解和多模态推理。
基于Transformer编码器-解码器体系结构,我们的UniT模型使用编码器对每个输入形式进行编码,并使用共享的解码器对编码后的输入表示形式的每个任务进行预测,然后对特定任务的输出头进行预测。整个模型经过端到端的联合训练,每项任务都会造成损失。
与以前使用transformer进行多任务学习的努力相比,我们对所有任务共享相同的模型参数,而不是分别微调特定于任务的模型,并处理不同领域中更多种类的任务。