论文阅读：（ECCV 2022）Improving Image Restoration by Revisiting Global Information Aggregation

最新推荐文章于 2023-08-03 23:49:20 发布

倘若我问心无愧呢丶

最新推荐文章于 2023-08-03 23:49:20 发布

阅读量1.6k

点赞数

分类专栏：论文阅读文章标签：论文阅读人工智能计算机视觉

本文链接：https://blog.csdn.net/mqy19960330/article/details/127436384

版权

论文阅读专栏收录该内容

23 篇文章 10 订阅

订阅专栏

Improving Image Restoration by Revisiting Global Information Aggregation （ECCV 2022）

Paper:https://arxiv.org/pdf/2112.04491.pdf
Code:https://github.com/megvii-research/tlc

作者解读：https://mp.weixin.qq.com/s/DCNWoRRN9frhtO0RQn69tQ

2022/10/20：很有意思的一篇文章，先把论文的摘要和结论放在最前面，后续对本文的内容进行简要的说明。上方的作者解读写的很好，建议先看完解读。

1. Abstract

全局操作，例如全局平均池，被广泛用于高性能图像恢复器。它们沿着整个空间维度聚合来自输入特征的全局信息，但在图像恢复任务的训练和推断过程中表现不同:它们基于不同的区域，即裁剪的补丁(来自图像)和全分辨率图像。本文重新审视全局信息聚合，发现推理过程中基于图像的特征与训练过程中基于补丁的特征有不同的分布。这种训练-测试的不一致性严重影响了模型的性能，这在以往的研究中被严重忽视。为了减少不一致性，提高测试时性能，我们提出了一种简单的测试时间局部转换器(TLC)方法。我们的TLC只在推断过程中将全局操作转换为局部操作，以便它们在局部空间区域内聚合特征，而不是整个大图像。该方法可以应用于各种全局模块(如归一化、通道和空间注意)，成本可以忽略不计。在不需要任何微调的情况下，TLC改进了一些图像恢复任务的最新结果，包括单幅图像运动去模糊、视频去模糊、离焦去模糊和图像去噪。特别是，通过TLC，我们的Restormer-Local将GoPro数据集上单幅图像的去模糊效果从32.92 dB提高到33.57 dB。

2. Conclusion

在这项工作中，我们揭示了由于全局操作的训练-测试不一致导致的全局信息分布在训练和推理之间的转移，这对恢复模型的性能产生了负面影响。我们提出了简单的测试时间解决方案，称为测试时间局部转换器，它将整个空间维度的信息聚合区域替换为局部窗口，以缓解训练和推理之间的不一致。我们的方法不需要任何再培训或微调，并提高了模型在各种任务中的性能。

3. Paper Content

内容真的很有意思，首先点出现有在图像复原任务中常用的注意力机制，例如SE Block、IN等等，通过空间域信息得到对特征通道的权重或者对特征进行归一化，在图像复原任务中取得了SOTA的性能。但是low-level任务的一个普遍现象是，在训练时都是采用256-512大小的patch进行训练，在测试时使用full-image进行测试。那么本文提出一个问题，训练时使用小的patch学习的归一化权重和通道注意力调整和full-image得到的特征分布是否是一样的呢？ 作者通过Patch和Full-Image全局池化后分布可视化证明了它们是不同的，它们之前存在不一致性。
在这里插入图片描述

那么这种训练和推理之间存在的数据分布（或者称全局信息分布）的不一致性会对模型产生负面影响，这有些类似于去雨去雾等E2E模型无法对真实世界图像进行有效恢复是一样的，训练数据和测试数据的分布存在不同。

作者提出了一种名为测试时间局部转换器的推理方案，在推理过程中直接改变特征层面信息聚合的范围，将全局操作转化为局部操作，这样能够使得推理时每个部分的统计量分布与训练时是相近的。具体的说就是将输入到全局操作的特征图切割成相同大小的重叠窗口，然后对每个重叠窗口都进行一次大小类似于训练时（实验证明比训练时patch大一些会更好）的局部聚合操作。从直觉角度认为计算复杂度应该会提高很多，但是作者将其看作子矩阵求和问题并运用前缀和技巧（Prefix Sum Trick）将该部分的运算复杂度降为 $\mathcal{O}(1)$ ，那么全局信息聚合的运算复杂度仍为 $\mathcal{O}(HW)$ ，相比baseline只有1%~5%的时间增加。

作者也在实验中证明了从像素域进行重叠块划分推理和整幅图像训练存在的问题，前者是存在明显的边界效应，后者则是受限于显存大小，2K~4K图像训练是不切实际的。该方法不需要重新进行训练和微调，可以直接插入到现有方法中。实验证明该方法在大部分图像复原任务（图像去模糊、去噪、双目超分辨率）中都有显著的提升。
在这里插入图片描述

倘若我问心无愧呢丶

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
9
评论
论文阅读：（ECCV 2022）Improving Image Restoration by Revisiting Global Information Aggregation

(ECCV 2022)Improing Image Restoration by Revisiting Global Information Aggregation
复制链接

扫一扫