ResT v2 论文解读

最新推荐文章于 2024-10-06 21:45:11 发布

00000cj

最新推荐文章于 2024-10-06 21:45:11 发布

阅读量750

点赞数 16

分类专栏： Transformer 文章标签：人工智能计算机视觉深度学习 Transformer

本文链接：https://blog.csdn.net/ooooocj/article/details/140718591

版权

Transformer 专栏收录该内容

43 篇文章 1 订阅

订阅专栏

paper：ResT V2: Simpler, Faster and Stronger

official implementation：https://github.com/wofmanaf/ResT

出发点

ResTv2的设计目标是改进先前版本ResTv1的结构，以提高模型的效率和性能。ResTv1通过引入多尺度注意力机制（EMSA），在视觉识别任务中取得了良好的效果。然而，EMSA的下采样操作会损失部分重要信息，特别是在早期阶段。为了弥补这一问题，ResTv2引入了上采样操作，构建了独立的卷积沙漏结构，以更高效地捕捉局部信息。

创新点

简化的EMSA结构：ResTv2通过移除多头交互部分，简化了EMSA结构，减少了计算复杂度。
上采样操作：为了重建下采样操作丢失的中高频信息，ResTv2引入了多种上采样策略，如“nearest”、“bilinear”和“pixel-shuffle”等。其中，pixel-shuffle策略效果最好。
独立卷积沙漏架构：EMSA v2的“下采样-上采样”组合构建了一个独立的卷积沙漏架构，能够高效地捕捉局部信息，这些信息对长距离依赖关系是补充。

方法介绍

如图1所示，虽然EMSA中的降采样操作可以显著降低计算开销，但不可避免地会丢失一些重要信息，特别是在早期阶段。为了在不对实际运行速度产生较大影响的前提下，有效地重构丢失的信息，作者提出直接对values进行上采样操作。有多种上采样策略，比如“nearest”,“bilinear”,“pixel-shuffle”等，作者发现它们都能提高模型性能，但pixel-shuffle（首先利用一个DWConv来扩展通道维度，然后再使用pixel-shuffle来上采样空间维度）表现最好。这样得到的新的self-attention结构称为EMSA v2，如图2(b)所示。【注：代码中通过Pytorch中的nn.PixelShuffle来实现上采样，它是将通道维度的值重排列移动到空间维度，类似于Yolo v5中focus的逆操作】

EMSA v2中的“下采样-上采样”组合恰好组成了一个独立的卷积沙漏结构，它可以用较少的额外参数和计算开销有效地捕捉局部信息，作为长距离依赖的补充。此外作者发现，EMSA v2中的多头交互模块尽管可以提高最终性能，但会降低实际推理速度。并且性能提升会随着每个head的通道维度的增加而降低。因此为了更快的推理速度我们在默认设置中删去了它。但如果head维度很小（例如64或更小），multi-head interaction module的作用会更显著。EMSA v2可以表示如下