最先进的ViT使用单尺度的patch embedding和单路径transformer编码器
MPViT通过重叠卷积将相同大小的特征和不同大小的patch的同时嵌入。
Ø将多尺度patch嵌入,通过重叠卷积将其拉平成为不同尺寸的token,在适当调整卷积的填充/步幅后产生具有相同序列长度的特征。
Ø然后,来自不同尺度的token被通过多条路径独立并行送到Transformer编码器中,执行全局自我关注。
Ø然后聚合生成的特征,从而在相同的特征级别上实现精细和粗略的特征表示。
由于我们的目标是探索用于密集预测的强大骨干网络,因此我们构建了一个多级体系结构。具体来说,构建了一个四阶段特征层次结构,用于生成不同尺度的特征图。
它们输出密集预测任务四个阶段中,作者在每个阶段对所提出的Multi-scale Patch Embedding(MS-PatchEmbed)和Multi-path Transformer(MP-Transformer)块进行堆叠。
由于多级体系结构具有更高分辨率的特点,因此它本质上需要更多的计算。因此,由于其线性复杂性,我们对整个模型使用了包括Factorzed Self attention的Transformer编码器。
思考:如何应用/改进