UniT:多模态多任务模型

一、简介
我们提出了UniT,一个统一transformer模型,以同时学习不同领域中最突出的任务,从目标检测到自然语言理解和多模态推理。基于transformer的编码器-解码器结构,我们的UniT模型用一个编码器对每个输入模态进行编码,用一个共享的解码器对编码后的输入表示进行预测,然后是特定任务的输出头。整个模型是通过每个任务的损失进行端到端的联合训练。与以前用transformer进行多任务学习的努力相比,我们在所有任务中共享相同的模型参数,而不是分别对特定任务的模型进行微调,并处理不同领域的更多任务。在我们的实验中,我们在8个数据集上联合学习了7个任务,在每个任务上都以明显较少的参数实现了强大的性能。我们的代码可在MMF中找到:https://mmf.sh。

transformer最早是在[59]中提出的,它已经在广泛的领域中显示出巨大的成功,包括但不限于自然语言、图像、视频和音频。以前的工作(例如[14, 43, 44, 4, 65, 35, 29, 45, 49])表明,在大型语料库中训练的transformer为广泛的下游语言任务学习了强大的表示。在视觉领域,基于transformer的模型在图像分类、目标检测和全景分割方面取得了可喜的成果(例如[40, 3, 22, 21, 47, 15, 61, 5, 72, 2, 58])。除了对单一模态进行建模,transformer模型在视觉和语言联合推理任务中也表现出很强的性能,如视觉问答(例如[31, 38, 39, 57, 9, 30, 55, 71, 23])。
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一颗2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值