论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration

七水合硫酸亚铁有点脆

已于 2022-08-08 10:33:45 修改

阅读量2.1k

点赞数 2

分类专栏： Low-level 文章标签： transformer

于 2022-08-07 15:39:45 首次发布

本文链接：https://blog.csdn.net/CrispyFeSO_4/article/details/126211664

版权

Low-level 专栏收录该内容

10 篇文章 4 订阅

订阅专栏

论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration

写在前面：
距离我上次半途而废TensorFlow笔记已经过去了整整一年半。
其实我自己也知道半途而废是不好的（笑。
承蒙本校不弃，收留我读研（bushi），本科研小白上路了。
上传自己的阅读笔记，一是方便以后查阅，二是想记录自己的水平变化，三是我确实很想当一个周更博主！

评论区欢迎指正和讨论，一起学习冲冲冲

在这里插入图片描述

1 Motivation

CNNs：
在这里插入图片描述

（a）接收域受限，无法对远距离像素之间的依赖关系进行建模
（b）滤波器的权重静态，不能灵活适应输入内容

Transformer：
优点：可以捕捉远距离像素之间的交互关系
缺点：计算复杂度随着空间分辨率的增加而平方增加，无法应用于高分辨率图像。

解决方法：
输入图像分为48*48的patches，独立计算每个patch的self-attention。
存在问题：
限制SA空间范围vs捕捉远距离像素之间的关系矛盾

2 Method

在这里插入图片描述

提出了一种编解码Transformer用于高分辨率图像上多尺度local-global表达学习，且无需进行局部窗口拆分；

在这里插入图片描述
编码器分层降低空间分辨率，同时扩展通道；解码器降低通道数，提升空间分辨率；
让Transformer块将编码器的低级图像特征与解码器的高级特征聚合在一起；
细化阶段进一步丰富深度特征Fd；

提出一种MDTA(Multi-Dconv head Transposed Attention)模块，它有助于进行局部与非局部相关像素聚合，可以高效的进行高分辨率图像处理；
提出一种GDFN(Gated-Dconv Feed-forward Network)模块，它可以执行可控特征变换，即抑制低信息特征，仅保留有用信息

归一化；第一1×1卷积：用于扩展特征通道（通常通过因子γ=4）；3×3卷积：学习局部信息；
GELU激活，点积
第二：通道降维到原始维度，加上输入图像
Progressive Learning
Transformer模型在较小块上训练可能无法进行全局统计信息编码，进而导致全分辨率测试时的次优性能。
在训练的初期，模型在较小图像块上进行训练；在训练的后期，模型采用更大图像块进行训练。由于更大的图像块会导致更长的计算耗时，我们随图像块提升降低batch，保持训练时间不变。

3 Experiment&可视化

在这里插入图片描述

用得最多，但是其值不能很好地反映人眼主观感受。一般取值范围：20-40.值越大，视频质量越好。

SSIM（结构相似性）：
计算稍复杂，其值可以较好地反映人眼主观感受。一般取值范围：0-1.值越大，视频质量越好。

在这里插入图片描述

LPIPS：
学习感知图像块相似度，用于度量两张图像之间的差别。LPIPS 比传统方法（比如L2/PSNR, SSIM, FSIM）更符合人类的感知情况。LPIPS的值越低表示两张图像越相似，反之，则差异越大。
MAE（Mean Absolute Error）：
平均绝对误差
在这里插入图片描述

5 消融实验

在这里插入图片描述
FLOPs复杂度
Params参数量

1×1卷积可以进一步提升模型性能；
Progressive学习机制指标更好；
深而窄的模型比宽而浅的模型更好；

6 Conclusion

Restormer：
MDTA：
（跨通道而不是空间维度，SA，进行局部与非局部相关像素聚合，建模全局上下文+线性复杂度）
GDFN：
控制信息流动, 进而使得每层聚焦于不同的细节信息。->抑制低信息特征，仅保留有用信息。

七水合硫酸亚铁有点脆

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration

Low level入门/科研小白/底层视觉压缩/图像恢复
复制链接

扫一扫