原来何恺明提出的MAE还是一种数据增强！上交&华为基于MAE提出掩蔽重建数据增强，优于CutMix、Cutout和Mixup！...

最新推荐文章于 2024-02-04 20:00:00 发布

我爱计算机视觉

最新推荐文章于 2024-02-04 20:00:00 发布

阅读量901

点赞数 1

文章标签： python 计算机视觉神经网络机器学习人工智能

本文链接：https://blog.csdn.net/moxibingdao/article/details/125863393

版权

上海交通大学和华为合作研究的论文提出了一种名为Mask-Reconstruct Augmentation (MRA)的新数据增强方法，基于自监督的Masked Autoencoders (MAE)。MRA在图像分类任务上超越了CutMix、Cutout和Mixup，通过掩蔽重建策略预训练轻量级自动编码器，生成更高质量的增强图像，提高模型的泛化能力。代码即将开源。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本篇分享论文『Masked Autoencoders are Robust Data Augmentors』，上交&华为基于MAE提出掩蔽重建数据增强，优于CutMix、Cutout 和 Mixup！代码即将开源！

详细信息如下：

论文地址：https://arxiv.org/abs/2206.04846
代码地址：https://github.com/haohang96/MRA

摘要

深度神经网络能够学习强大的表示来解决复杂的视觉任务，但会暴露出诸如过拟合问题之类的不良特性。为此，图像增强等正则化技术对于深度神经网络的泛化是必要的。尽管如此，大多数流行的图像增强方法都将自己局限于现成的线性变换，如缩放、翻转和颜色抖动。由于它们的手工属性，这些增强不足以生成真正的难增强示例。

在本文中，作者提出了一种新的增强视角来规范训练过程。受最近成功将掩蔽图像建模（masked image modeling ）应用于自监督学习的启发，作者采用自监督掩蔽自动编码器来生成输入图像的失真视图。利用这种基于模型的非线性变换作为数据增强可以改善高级识别任务。作者将提出的方法称为掩蔽重建增强（Mask-Reconstruct Augmentation，MRA）。在各种图像分类基准上的广泛实验验证了所提出的增强的有效性。具体来说，MRA 不断提高监督、半监督和少样本分类的性能。

Motivation

在过去的十年中，计算机视觉见证了深度学习的强大力量。通过骨干模型、训练数据集、优化方法的革命，这种数据驱动的学习方案在图像分类、目标检测和场景分割等各种视觉任务上取得了重大突破。然而，这些方法严重依赖大量数据以避免过度拟合，其中模型通过强制记忆训练数据完美拟合训练数据，但在测试集上表现不佳。

为了缓解过度拟合问题，数据增强被用作常见的训练技巧，以增加训练数据的多样性，特别是对于小规模数据集。主流的训练方法采用基本的图像处理作为数据增强，主要可以表示为线性变换，包括核过滤器、颜色空间变换、几何变换等。这些手动设计的方法可以快速、可重复且可靠地对原始数据集上颜色和几何空间的不变性进行编码。

同时，他们享受标签保留的特性，即对图像进行的转换不会改变高级语义信息。然而，最近关于自监督学习的工作表明，这些低级变换可以很容易地被深度神经网络掌握，这表明这种基本的图像处理方法可能不足以有效地概括输入分布。

一系列工作没有使用传统的图像处理，而是引入了生成对抗网络(GAN)以提高数据增强的质量，这可以看作是一种基于模型的数据增强。GAN 非常强大，可以使用两个对抗网络来执行无监督生成，一个生成自然图像，而另一个将假图像与真实图像区分开来。

合成的图像数据在不方便收集数据集的低数据区域中运行良好，例如医学成像。但是这种样本合成方法不能很好地推广到大规模的标记数据集。根本原因可能是对生成的结果没有保证或定量评估。与原始训练数据相比，看起来不错的复合样本可能具有不同的分布。

相反，获得相邻似然性的模型可能会生成不切实际的样本。结果，生成的对象可能具有任何荒谬的形状和外观，与它们之前的分布有很大不同。因此，GAN 的不确定性和不稳定特性限制了其在图像增强中的应用。因此，需要使生成更可控。这样，就可以合理有效地构建增强图像。

本文遵循基于模型的数据增强，并声称如果以适当的方式约束