论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

抛砖引玉了,如有不同意见欢迎讨论。



在这里插入图片描述
在超分Transformer中激活更多像素。
澳门大学、中科大、上海人工智能实验室的,董超老师的团队。
CVPR2023。

1 Motivation

LAM:一种为SR任务设计的归因方法,能显示模型在进行超分辨率重建的过程中哪些像素起到了作用。一般来说,被利用像素的范围越大,重建的效果往往越好。
在这里插入图片描述
被利用像素的范围:定性看红色区域的范围;定量看DI(diffusion index),越大越好。
这个结论在EDSR和RCAN很显著,但是在SwinIR和RCAN相比就不成立。

  • 问题:SwinIR的性能更好,但是使用的像素范围更小。
    本文认为:SwinIR结构拥有更强的局部表征能力,能够使用更少的信息来达到更高的性能。

  • 问题:SwinIR虽然性能好,但是恢复出的图像纹理是错的。
    本文认为:是因为SwinIR的信息使用范围有限,窗口自注意力机制限制了信息的使用范围。SwinIR依然有较大提升空间,如果更多的像素能够被利用,那么应该会取得更大的性能提升。

  • 另外,文章发现,SwinIR网络前几层产生的中间特征会出现明显的块状效应。
    文章认为,这是由于模型在计算自注意力时的窗口划分导致的,因此认为现有结构进行跨窗口信息交互的方式也应该被改进。
    在这里插入图片描述

2 Contribution

  • 1)设计了一种HAT(混合注意力transformer),结合自注意力、通道注意力和设计的重叠交叉注意力,激活更多的像素以更好地重建。
  • 2)同任务预训练策略,进一步挖掘SR-Transformer的潜力。表明了大规模数据集预训练对任务的重要性。
  • 3)SOTA。

3 Method

3.1 Overview

在这里插入图片描述

3.2 HAB (Hybrid Attention Block)

在这里插入图片描述
和SwinT Block一样,串联了CAB模块。

通道注意力: 利用全局信息;自注意力:强大表征能力。HAB同时结合两者优势。
SwinT模块的输入输出是同维度,CAB模块也是,所以可以直接实现三个矩阵相同位置元素叠加。
(SwinT:)
在这里插入图片描述

3.2.1 Channel Attention

本质:对特征的各个通道的重要性进行学习,分配不同的权重。
代表模型:Squeeze-and-Excitation Networks (SENet)

在这里插入图片描述
在这里插入图片描述
对于H×W×C的input元素特征图:
压缩:全局平均池化,压缩通道 [H, W] -> [1, 1]
激励:全连接层1 -> Relu -> 全连接层2 -> sigmoid (学习各个通道权重的重要性,激活函数)
维度变换:[H×W×C] ->[1×1×C]->[1×1×n1]->[1×1×C]

3.2.2 CAB

在这里插入图片描述
在这里插入图片描述
经过卷积,gelu,卷积。这部分,不知道要做什么。但是压缩通道是为了节省参数。

后面是CA模块。平均池化是压缩特征尺度,区别于上面的全连接层,这里使用1*1卷积来学习通道权重。

3.2.3 OCAB (Overlapping Cross-Attention Block)

在这里插入图片描述
也是仿照Swin-T模块,替换自注意力机制变成自己设计的OCA模块,Overlapping Cross-Attention,重叠交叉注意力。

在这里插入图片描述
普通注意力:
QKV是由同一个X矩阵(HWC),分别乘上不同的CC矩阵,变成XQ,XK,XV,然后按照窗口划分QKV,在窗口内使用公式计算。
OCA:
在这里插入图片描述
同样一个XQ矩阵,划分成MM大小的窗口,窗口内计算Q。
XK和XV的窗口划分要更大。先在周围做一圈零填充,宽度是γM/2。
然后划分成M0
M0,step=M的窗口,作为K和V,再与Q计算注意力。M0通过公式计算得到。
维度不一样的问题,使用广播机制扩充Q的维度。

结果:允许attention跨窗口计算,加强了相邻窗口的信息交互,减弱块效应。

3.3 The Same-task Pre-training

之前工作:
various low-level tasks / different degradation levels of a specific task
本文:
同任务、大规模数据集ImageNet预训练。
比如:×4模型。先在ImageNet进行×4的预训练,然后在特定数据集微调(使用小学习率)。
文章认为,是因为Transformer需要更多的数据和迭代学习任务的一般知识。

4 Experiment

首先做了一个实验。在SwinIR验证,自注意力的窗口越大,越有利于性能的提升。
所以选用了16的窗口大小。

在这里插入图片描述
主实验:
训练数据集:DF2K ( DIV2K + Flicker2K )
RHAG:6
HAB:6
Channel:180
Attention head number:6
Window size:16
α(HAB):0.01
β(CAB):3
重叠比γ:0.5

另提供2个版本的模型:
HAT-L:RHAG:12(ori:6)
HAT-S:channel:144(ori:180)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 Ablation study

OCAB、CAB

在这里插入图片描述

Channel attention、α、γ

在这里插入图片描述

Pre-training strategy

在这里插入图片描述

  • 7
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值