CVPR2020-CutBlur-专用于图像复原的数据增广策略 | Rethinking Data Augmentation for Image Super-resolution

最新推荐文章于 2024-07-22 16:48:08 发布

chenzy_hust

最新推荐文章于 2024-07-22 16:48:08 发布

阅读量3.6k

点赞数 3

文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_42096202/article/details/105626842

版权

之前自己在SISR中做过mixup等增广，发现效果甚微。作者的工作量挺大的，提出了专用于图像复原领域的数据增广策略，简单有效！
Github：https://github.com/clovaai/cutblur

在这里插入图片描述

Abstract：

数据扩充是提高深度网络性能的有效方法。不幸的是，当前的方法主要是针对高级视觉任务（例如分类）而开发的，很少研究用于低级视觉任务（例如图像复原）的方法。在本文中，我们对应用于超分辨率任务的现有增强方法进行了全面分析。我们发现，丢弃、处理像素或特征的方法过多地妨碍了图像复原，而空间关系非常重要。根据我们的分析，我们提出使用CutBlur剪切低分辨率的色块并将其粘贴到相应的高分辨率图像区域，反之亦然。 CutBlur的主要直觉是使模型不仅学习“如何”而且还学习“超分辨率”图像的“位置”。通过这样做，模型可以了解“多少”，而不是盲目地学习对每个给定像素应用超分辨率。我们的方法始终如一且显着提高了各种场景下的性能，尤其是当模型很大且在现实环境下收集数据时。我们还表明，我们的方法改进了其他低级视觉任务，例如降噪和压缩伪像去除。

Introduction：

1.现有数据增广方法主要分为两种：
1.基于像素域：如Mixup，Cutout，Cutmix
2.基于特征域，如dropout
作者发现，当这些方法直接应用于SISR任务时，某些方法会损害图像复原结果，甚至会妨碍训练，尤其是当一种方法在很大程度上导致附近像素之间的空间信息丢失或混乱时（例如Cutout 和特征域方法）。诸如RGB排列之类的基本操作不会引起严重的空间失真，比那些引发不真实图案或结构急剧转变的操作（例如Mixup 和CutMix ）提供了更好的改进。

2.现有数据增广方式效果分析：
在这里插入图片描述

上图罗列了各种数据增广方式，这里做一一解释：
1.Cutout：随机切除图像一块区域，效果有限
2.Cutmix：随机切除图像一块区域，并使用其余图像内容填充，效果有限，因为CutMix产生了图像边界的急剧急剧过渡。
3.Mixup：两张图像按照比率混合，效果提升0.05db
4.CutMixup：为了缓解Mixup中会使模型混淆的问题，提出CutMix与Mixup的结合体，受益于最小化边界效应以及混合上下文的比率，效果提升0.06db，进一步提升
5.RGB permute与Blend：分别是打乱RGB像素排列和添加固定像素值，由于不会引起图像的任何结构变化，效果提升不错
6.CutBlur：将LR与HR图像局部区域相互填充，在RealSR上提升很大
7.MOA：以上所有的增广方法混合使用，效果最为显著

CutBlur：

1.Algorithm
在这里插入图片描述
思想比较简单，就是对于LR图像。首先放大到与HR相同尺寸，然后与HR进行局部区域的填充操作。或者使用HR图像对放大后的LR推向进行局部区域的填充操作，得到一对训练集图像。（备注：感觉论文这里的操作和意思都有模糊。第一点，新的训练集对包含HR和LR与HR混合后的图像，而不是LR填充到HR与HR填充到LR这俩图像对。第二点，LR图像上采样后，怎么输入网络，这里并没有说清楚。）

2.Discussion
1）为什么适用于SR：图像斑块中的尖锐过渡或混合的图像内容，或失去像素关系会降低SR性能。因此，一种好的SR的DA方法不应成为不切实际的模式或信息丢失，而应作为SR模型的良好正则化工具。 Cutblur可以最大程度地减少边界效应，这主要是由于图像内容之间的不匹配（例如Cutout和CutMix）。与Cutout不同，CutBlur可以利用整个图像信息，同时由于随机HR比率和位置的不同样本而具有正则化效果。

2）模型通过CutBlur学到了什么？
与防止分类模型过分自信地做出决策的其他DA方法类似（例如，标签平滑），CutBlur可以防止SR模型使图像过分锐化，并帮助其仅超分辨必要的区域。这可以通过使用一些人工设置进行实验来证明，其中我们为CutBlur训练的SR模型提供了HR图像或CutBlurred LR图像作为输入。

备注：论文看到这里，我有一大疑惑。即算法将HR作为模型输入，输出得到的结果岂不是超出目标尺寸了。因此我专门去看了一下源码（论文最后有做解释，但是太迟了，看的云里雾里的）。作者训练的时候，首先将LR（h × w × c）图像经过bicubic上采样到目标尺寸（sh ×s w × c），然后采用数据增广产生输入。改动在网络第一层对输入（sh ×s w × c）reshape到（h × w × s2c）。这样尺寸就对应的上了。

在这里插入图片描述

当SR模型在测试阶段使用HR图像输入时，通常会输出过锐的预测，尤其是在边缘处（图2）。CutBlur可以通过在训练阶段直接向模型提供此类示例来解决此问题。由于具有正则化效果，CutBlur不仅减轻了过度锐化的问题，而且还增强了其他LR区域的SR性能（图3）。注意，在CutBlur模型中，残差强度已大大降低。我们假设此增强来自约束SR模型以区别地将超分辨率应用于图像。现在，该模型必须同时学习“如何”和“何处”以对图像进行超分辨率，这导致该模型学习“应”应用超分辨率的“量”，从而为训练提供了有益的正则化效果。

3）CutBlur vs. Giving HR inputs during training
为了使模型学习残差映射，而不是使用CutBlur，作者将HR图像作为训练阶段网络的输入。发CutBlur的结果高于HR输入（29.04db vs 28.87db）。这是因为CutBlur更通用，因为HR输入是其特例（M = 0或1）。另一方面，提供HR输入永远无法模拟LR和HR像素的混合分布，因此网络只能学习“如何”而不是“何处”来超分辨图像。