ResT v2 论文解读

paper:ResT V2: Simpler, Faster and Stronger

official implementation:https://github.com/wofmanaf/ResT

出发点

ResTv2的设计目标是改进先前版本ResTv1的结构,以提高模型的效率和性能。ResTv1通过引入多尺度注意力机制(EMSA),在视觉识别任务中取得了良好的效果。然而,EMSA的下采样操作会损失部分重要信息,特别是在早期阶段。为了弥补这一问题,ResTv2引入了上采样操作,构建了独立的卷积沙漏结构,以更高效地捕捉局部信息。

创新点

  1. 简化的EMSA结构:ResTv2通过移除多头交互部分,简化了EMSA结构,减少了计算复杂度。
  2. 上采样操作:为了重建下采样操作丢失的中高频信息,ResTv2引入了多种上采样策略,如“nearest”、“bilinear”和“pixel-shuffle”等。其中,pixel-shuffle策略效果最好。
  3. 独立卷积沙漏架构:EMSA v2的“下采样-上采样”组合构建了一个独立的卷积沙漏架构,能够高效地捕捉局部信息,这些信息对长距离依赖关系是补充。

方法介绍

如图1所示,虽然EMSA中的降采样操作可以显著降低计算开销,但不可避免地会丢失一些重要信息,特别是在早期阶段。为了在不对实际运行速度产生较大影响的前提下,有效地重构丢失的信息,作者提出直接对values进行上采样操作。有多种上采样策略,比如“nearest”,“bilinear”,“pixel-shuffle”等,作者发现它们都能提高模型性能,但pixel-shuffle(首先利用一个DWConv来扩展通道维度,然后再使用pixel-shuffle来上采样空间维度)表现最好。这样得到的新的self-attention结构称为EMSA v2,如图2(b)所示。【注:代码中通过Pytorch中的nn.PixelShuffle来实现上采样,它是将通道维度的值重排列移动到空间维度,类似于Yolo v5中focus的逆操作】

EMSA v2中的“下采样-上采样”组合恰好组成了一个独立的卷积沙漏结构,它可以用较少的额外参数和计算开销有效地捕捉局部信息,作为长距离依赖的补充。此外作者发现,EMSA v2中的多头交互模块尽管可以提高最终性能,但会降低实际推理速度。并且性能提升会随着每个head的通道维度的增加而降低。因此为了更快的推理速度我们在默认设置中删去了它。但如果head维度很小(例如64或更小),multi-head interaction module的作用会更显著。EMSA v2可以表示如下

实验结果

基于EMSAv2,作者构建了不同大小的ResTv2,具体配置如下

在ImageNet上的结果如表1所示,可以看到ResT v2相较于v1获得了明显的提升,比如ResTv2-T比ResTv1-B精度提升了0.7%同时推理速度更快。和其它模型相比提升也很明显,例如ResTv2-T比Swin-T精度提升了1%。

在下游任务例如COCO上的目标检测、ADE20K上的语义分割上的提升也很明显。 

作者还进行了一些消融实验,例如本文采用的是对value进行上采样,还可以对下采样的结果 \(x'\) 或key进行上采样,结果如下表所示,可以看到对value上采样的效果是最好的。 

下面是不同上采样方法的对比,可以看到pixel-shuffle的效果最好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

00000cj

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值