Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer

本文介绍了Facebook的UniT模型,这是一个基于Transformer的统一架构,用于跨领域的多模态多任务学习,达到多个任务的SOTA性能。模型通过端到端训练,共享参数,挑战了特定任务微调的传统做法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文提出UniT:统一的Transformer编码器-解码器体系结构,能够在单个模型中连接和学习多个任务和领域,均能达到SOTA!代码即将开源!

Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer
在这里插入图片描述

  • 作者单位:Facebook(FAIR)
  • 主页:https://mmf.sh/
  • 论文下载链接:https://arxiv.org/abs/2102.10772

我们提出UniT:统一Transfomer模型,以同时学习跨领域最重要的任务,从目标检测到语言理解和多模态推理。

在这里插入图片描述

基于Transformer编码器-解码器体系结构,我们的UniT模型使用编码器对每个输入形式进行编码,并使用共享的解码器对编码后的输入表示形式的每个任务进行预测,然后对特定任务的输出头进行预测。整个模型经过端到端的联合训练,每项任务都会造成损失。

与以前使用transformer进行多任务学习的努力相比,我们对所有任务共享相同的模型参数,而不是分别微调特定于任务的模型,并处理不同领域中更多种类的任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值