原来何恺明提出的MAE还是一种数据增强!上交&华为基于MAE提出掩蔽重建数据增强,优于CutMix、Cutout和Mixup!...

关注公众号,发现CV技术之美

本篇分享论文『Masked Autoencoders are Robust Data Augmentors』,上交&华为基于MAE提出掩蔽重建数据增强,优于CutMix、Cutout 和 Mixup!代码即将开源!

详细信息如下:

67d51ad57c36ac3f95bc225f7df52af7.png

  • 论文地址:https://arxiv.org/abs/2206.04846

  • 代码地址:https://github.com/haohang96/MRA


      01      

摘要

深度神经网络能够学习强大的表示来解决复杂的视觉任务,但会暴露出诸如过拟合问题之类的不良特性。为此,图像增强等正则化技术对于深度神经网络的泛化是必要的。尽管如此,大多数流行的图像增强方法都将自己局限于现成的线性变换,如缩放、翻转和颜色抖动。由于它们的手工属性,这些增强不足以生成真正的难增强示例。

在本文中,作者提出了一种新的增强视角来规范训练过程。受最近成功将掩蔽图像建模(masked image modeling )应用于自监督学习的启发,作者采用自监督掩蔽自动编码器来生成输入图像的失真视图。利用这种基于模型的非线性变换作为数据增强可以改善高级识别任务。作者将提出的方法称为掩蔽重建增强(Mask-Reconstruct Augmentation,MRA)。在各种图像分类基准上的广泛实验验证了所提出的增强的有效性。具体来说,MRA 不断提高监督、半监督和少样本分类的性能。

      02      

Motivation

在过去的十年中,计算机视觉见证了深度学习的强大力量。通过骨干模型、训练数据集、优化方法的革命,这种数据驱动的学习方案在图像分类、目标检测和场景分割等各种视觉任务上取得了重大突破。然而,这些方法严重依赖大量数据以避免过度拟合,其中模型通过强制记忆训练数据完美拟合训练数据,但在测试集上表现不佳。

为了缓解过度拟合问题,数据增强被用作常见的训练技巧,以增加训练数据的多样性,特别是对于小规模数据集。主流的训练方法采用基本的图像处理作为数据增强,主要可以表示为线性变换,包括核过滤器、颜色空间变换、几何变换等。这些手动设计的方法可以快速、可重复且可靠地对原始数据集上颜色和几何空间的不变性进行编码。

同时,他们享受标签保留的特性,即对图像进行的转换不会改变高级语义信息。然而,最近关于自监督学习的工作表明,这些低级变换可以很容易地被深度神经网络掌握,这表明这种基本的图像处理方法可能不足以有效地概括输入分布。

一系列工作没有使用传统的图像处理,而是引入了生成对抗网络(GAN)以提高数据增强的质量,这可以看作是一种基于模型的数据增强。GAN 非常强大,可以使用两个对抗网络来执行无监督生成,一个生成自然图像,而另一个将假图像与真实图像区分开来。

合成的图像数据在不方便收集数据集的低数据区域中运行良好,例如医学成像。但是这种样本合成方法不能很好地推广到大规模的标记数据集。根本原因可能是对生成的结果没有保证或定量评估。与原始训练数据相比,看起来不错的复合样本可能具有不同的分布。

相反,获得相邻似然性的模型可能会生成不切实际的样本。结果,生成的对象可能具有任何荒谬的形状和外观,与它们之前的分布有很大不同。因此,GAN 的不确定性和不稳定特性限制了其在图像增强中的应用。因此,需要使生成更可控。这样,就可以合理有效地构建增强图像。

本文遵循基于模型的数据增强,并声称如果以适当的方式约束&#x

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值