今天分享的论文是CVPR2023《Comprehensive and Delicate: An Efficient Transformer for Image Restoration》
代码
https://github.com/XLearning-SCU/2023-CVPR-CODE
问题
viT(Vision Transformers)通常基于窗口或者通道关注来避免密集计算,但是这种方式获得是局部的像素关系而不是全局依赖(这与transformer的本质相悖)
背景
CNN虽然在图像恢复中证明很有效但是存在下面的问题:
- CNN 中固定不变的权重,而不是在训练过程中动态调整的权重。这种固定权重的设置限制了模型的能力,使得它难以对不同的实例进行自适应调整
- CNN 的稀疏连接限制了全局依赖性的捕获
因此提出transformer获取动态加权能力和全局依赖能力,但是对于图像恢复专用的 Transformer,最大的障碍是全局注意力计算的成本。因此,人们提出了一些有效的注意力机制来提高效率,例如局部窗口注意力、移位窗口注意力和通道注意力,又产生新的问题:
- 计算成本仍然很高
- 注意力机制只能捕获给定范围内的依赖关系,局部性可能无法充分发挥 Transformer 的潜力
解决
思想
- 将像素级的特征自适应地聚合到超像素的低维空间中,以消除通道和空间域中的冗余。
- 通过特征聚合,维数显着降低,以可接受的计算成本以全局方式计算注意力。
- 进行特征恢复以恢复通道域和空间域中的特征分布。
依赖关系在超像素维度中,而恢复的新像素依赖于超像素的全局信息
方法
利用两个模型,先利用CA(condensed attention neural block)模块来得到超像素的全局依赖性,再利用DA(dual adaptive neural block)模块来将全局性依赖转移到每个像素中
CA使用特征聚合,注意力计算和特征恢复来完成
DA采用双路结构自适应地将全局性超像素封装到像素中
只需要SwinIR的6%flops就可以实现相同效果