【第29篇】MPViT:用于密集预测的多路径视觉转换器
MPViT:用于密集预测的多路径视觉转换器密集的计算机视觉任务(例如对象检测和分割)需要有效的多尺度特征表示来检测或分类具有不同大小的对象或区域。虽然卷积神经网络 (CNN) 一直是此类任务的主要架构,但最近推出的视觉转换器 (ViT) 旨在取代它们作为主干。与 CNN 类似,ViT 构建了一个简单的多阶段结构(即从精细到粗糙),用于具有单尺度补丁的多尺度表示。在这项工作中,我们以与现有 Transformer 不同的视角,探索多尺度补丁嵌入和多路径结构,构建多路径视觉 Transformer (MPV
复制链接