#今日论文推荐#分割冠军 | 超越Swin v2、PvT v2等模型,ViT-Adaptiver实现ADE20K冠军60.5mIoU
与最近将视觉特定的归纳偏差引入Vision Transformer
架构不同,ViT
由于缺乏图像的先验信息,在密集预测任务上的性能较差。为了解决这个问题,本文提出了一种Vision Transformer
适配器(ViT-Adapter
),ViT-Adapter
可以通过额外的架构引入归纳偏差来弥补ViT
的缺陷并实现与视觉特定模型相当的性能。
具体来说,ViT-Adapter
中的Backbone
是一个普通的Transformer
,可以用多模态数据进行预训练。在对下游任务进行微调时,使用特定于模态的适配器将数据和任务的先验信息引入模型,使其适用于这些任务。
论文题目:Vision Transformer Adapter for Dense Predictions
详细解读:https://www.aminer.cn/research_report/6286fe907cb68b460fbccf3a?download=falsehttps://www.aminer.cn/research_report/6286fe907cb68b460fbccf3a?download=false
AMiner链接:https://www.aminer.cn/?f=cs