CVPR 2021 UniT: Multimodal Multitask Learning with a Unifified Transformer

动机
  1. transformer在包括但不限于自然语言、图像、视频和音频在内的广泛领域都显示出巨大的成功。

    前人的研究表明,在大型语料库中训练的transformer在一系列的下游语言任务中学习了强大的表征。在视觉领域中,基于transformer的模型在图像分类、目标检测和全景分割方面取得了非常不错的结果。除了对单个模态建模外,transformer模型在视觉问答等联合视觉和语言推理任务中也表现出很强的性能。

  2. 将transformer应用于跨领域的不同任务。

    尽管将transformer应用于特定领域方面取得了上述成就,但在将transformer应用于跨领域的不同任务方面还没有太多的先验工作。在目睹了transformer的成功之后,各种问题自然产生了:一个transformer模型能否被训练既可以在文本输入做自然语言推理又可以在图像上做目标检测?或一个基于transformer的图像分类器是否也可以挖掘文本隐含信息?总体而言,作为迈向通用智能的一步,是否有可能建立一个同时处理多种领域任务的单一模型?

  3. 以前的工作试图解决其中一些问题,但范围有限:

    • 仅适用于来自单个领域或特定多模态领域的任务;ViT和DETR专注于视觉任务,BERT及其衍生工作只处理语言任务,而VisualBERT、VILBERT等多模态transformer工作只研究视觉和语言的特定多模态领域。

    • 涉及每个任务的特定于任务的微调,而不是在任务之间利用任何共享参数,通常以N个任务的N倍的参数结束,例如,必须用BERT分别微调每个任务的模型。

    • 只从一个领域对相关或相似的任务执行多任务,有时使用硬编码的训练策略;例如,T5只适用于语言领域的任务,而VILBERT-MT只适用于相关的视觉和语言任务。

方法

在这里插入图片描述

提出UniT:统一的Transfomer模型,以同时学习跨领域最重要的任务,从目标

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
几篇CVPR关于multi-task的论文笔记整理,包括 一、 多任务课程学习Curriculum Learning of Multiple Tasks 1 --------------^CVPR2015/CVPR2016v--------------- 5 二、 词典对分类器驱动卷积神经网络进行对象检测Dictionary Pair Classifier Driven Convolutional Neural Networks for Object Detection 5 三、 用于同时检测和分割的多尺度贴片聚合(MPA)* Multi-scale Patch Aggregation (MPA) for Simultaneous Detection and Segmentation ∗ 7 四、 通过多任务网络级联实现感知语义分割Instance-aware Semantic Segmentation via Multi-task Network Cascades 10 五、 十字绣网络多任务学习Cross-stitch Networks for Multi-task Learning 15 --------------^CVPR2016/CVPR2017v--------------- 23 六、 多任务相关粒子滤波器用于鲁棒物体跟踪Multi-Task Correlation Particle Filter for Robust Object Tracking 23 七、 多任务网络中的全自适应特征共享与人物属性分类中的应用Fully-Adaptive Feature Sharing in Multi-Task Networks With Applications in Person Attribute Classification 28 八、 超越triplet loss:一个深层次的四重网络,用于人员重新识别Beyond triplet loss: a deep quadruplet network for person re-identification 33 九、 弱监督级联卷积网络Weakly Supervised Cascaded Convolutional Networks 38 十、 从单一图像深度联合雨水检测和去除Deep Joint Rain Detection and Removal from a Single Image 43 十一、 什么可以帮助行人检测?What Can Help Pedestrian Detection? (将额外的特征聚合到基于CNN的行人检测框架) 46 十二、 人员搜索的联合检测和识别特征学习Joint Detection and Identification Feature Learning for Person Search 50 十三、 UberNet:使用多种数据集和有限内存训练用于低,中,高级视觉的通用卷积神经网络UberNet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory 62 一共13篇,希望能够帮助到大家

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值