CVPR最新论文:只需要SwinIR的6%参数量就可以实现相同效果

今天分享的论文是CVPR2023《Comprehensive and Delicate: An Efficient Transformer for Image Restoration》

代码

https://github.com/XLearning-SCU/2023-CVPR-CODE

问题

viT(Vision Transformers)通常基于窗口或者通道关注来避免密集计算,但是这种方式获得是局部的像素关系而不是全局依赖(这与transformer的本质相悖)

背景

CNN虽然在图像恢复中证明很有效但是存在下面的问题:

  1. CNN 中固定不变的权重,而不是在训练过程中动态调整的权重。这种固定权重的设置限制了模型的能力,使得它难以对不同的实例进行自适应调整
  2. CNN 的稀疏连接限制了全局依赖性的捕获

因此提出transformer获取动态加权能力和全局依赖能力,但是对于图像恢复专用的 Transformer,最大的障碍是全局注意力计算的成本。因此,人们提出了一些有效的注意力机制来提高效率,例如局部窗口注意力、移位窗口注意力和通道注意力,又产生新的问题:

  1. 计算成本仍然很高
  2. 注意力机制只能捕获给定范围内的依赖关系,局部性可能无法充分发挥 Transformer 的潜力

解决

思想

  1. 将像素级的特征自适应地聚合到超像素的低维空间中,以消除通道和空间域中的冗余。
  2. 通过特征聚合,维数显着降低,以可接受的计算成本以全局方式计算注意力。
  3. 进行特征恢复以恢复通道域和空间域中的特征分布。

依赖关系在超像素维度中,而恢复的新像素依赖于超像素的全局信息

方法

利用两个模型,先利用CA(condensed attention neural block)模块来得到超像素的全局依赖性,再利用DA(dual adaptive neural block)模块来将全局性依赖转移到每个像素中

CA使用特征聚合,注意力计算和特征恢复来完成

DA采用双路结构自适应地将全局性超像素封装到像素中

只需要SwinIR的6%flops就可以实现相同效果
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值