论文阅读:深度学习图像数据增广方法研究综述

摘要


背景:

充足的训练数据不仅可以缓解模型在训练时的过拟合问题,而且可以进一步扩大参数搜索空间,帮助模型进一步朝着全局最优解优化。
然而,在许多领域或任务中,获取到充足训练样本的难度和代价非常高。因此,数据增广成为一种常用的增加训练样本的手段。

本文贡献:

按照方法本质原理的不同,将其分为单数据变形、多数据混合、学习数据分布和学习增广策略等 4 类方法。
单数据变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等 5 种;
多数据混合可按照图像维度的混合和特征空间下的混合进行划分;
学习数据分布的方法主要基于生成对抗网络和图像风格迁移的应用进行划分;
学习增广策略的典型方法可以按照基于元学习和基于强化学习进行分类

前景:

根据数据和任务
基于强化学习探索最优的组合策略,
基于元学习自适应地学习最优数据变形和混合方式,
基于生成对抗网络进一步拟合真实数据分布以采样高质量的未知数据,
基于风格迁移探索多模态数据互相转换的应用

0. 引言


在许多研究领域,受限于数据获取难度大、标注成本高等原因,往往难以获得充足的训练数据,这样训练得到的深度学习模型往往存在过拟合的问题,进而导致模型泛化能力差、测试精度不高等,难以满足应用需求。

数据增广,又称数据增强( data augmentation) , 是一种增加有限数据的数量和多样性的策略,旨在从有限的数据中提炼出更多有用的信息,产生等价于更多数据的价值。数据增广方法试图从过拟合问题的根源———训练样本不足,去解决该问题。

数据增广可以分为数据变形 (data warping) 和 数据过采样 ( oversampling)两种方法。

数据变形类:LeNet-5、AlexNet、VGGNet、GoogleNet、ResNet、DenseNet中都有用到。

多幅图像信息混合:SamplePairing 、mixup、SMOTE等,这类方法本质上属于数据过采样

GAN:Frid-Adar 等

元学习和强化学习的思想:训练一个模型去自适应地选用最优的数据增广策略,来实现模型性能提升的最大化。AutoAugment 和 RandAugment

本文从另外的角度,即从数据增广的生成方式综述,将数据扩增方法分为单数据变形、 多数据混合、学习数据分布规律生成新数据和学习增广策略等 4 类方法。

1. 单数据变形


1.1 几何变换


  • 几何变换 ( geometric transformations)是最常见的图像数据增广方法,通过旋转、镜像、平移、裁剪、 缩放和扭曲等变换方式生成新样本。
  • 在实际任务中,需要根据数据的特点选择合适 的几何变换方法才能进一步带来模型性能的提升, 否则可能适得其反。
  • 虽然几何变换的方式简单易操作,但也存在对数据重复记忆、增加的信息量有限等缺点,这也导致几何变换在实际应用中为模型带来的精度提升十分有限。

1.2 色域变换


  • 色域变换( color space transformations) 是一种在 图像各通道上进行亮度变换的新样本生成方式。
  • 基于色域变换的数据增广本质上是通过对数据集增加各种各样的光照亮度偏差,增强模型在不同光照条件下的鲁棒性。
  • 对于图像分类任务,空间几何信息相比色彩信息更加重要。色域变换与几何变换存在着同样的缺点, 同时还可能丢失一些重要的颜色信息,进而改变图像原有的语义信息,这也使得该方式的应用存在较 大的局限性。

示例:

  • 颜色抖动(color jittering),通过几种颜色组合模拟出大范围内多色彩模式的图像增广方式
  • PCA抖动(fancy PCA),对原图像进行主成分分析( PCA) ,求得协方差矩阵,然后对主成分的特征值 施加一个均值为 0 的随机扰动,然后再反变换回去。
  • 高斯抖动,本质上通过给协方差矩阵增加噪音实现一种图像在视觉表现上的滤镜效果。
  • 实际应用中,甚至可以使用图像编辑软件进行颜色变换。

image.png

1.3 清晰度变换


  • 清晰度变换是一种改变图像视觉清晰度的新样本生成方式。
  • “核滤波器( kernel filters) ”,核滤波器通过滑动的 n × m 矩阵对图像进行卷积操作,对图像进行锐化和模糊处理,实现图像的清晰度变换。
  • 采用这种滤波方式对数据集进行增强,不如将其作为网络的一层,还可以训练获得最优的滤波操作。

示例:

  • 高斯模糊滤波器( Gaussian blur filter)
  • 边缘滤波器( edge filter)
  • PatchShuffle 正则化

1.4 噪声注入


  • 噪声注入( noise injection) 是一种在图像上叠加噪声的新样本生成方式,噪声可表示为一个服从某分布的随机矩阵。
  • 通过人为地为图像施加噪声干扰,可为数据集引入冗余和干扰信息,模拟不同成像质量的图像,增强模型对噪声干扰和冗余信息的过滤能力,提高模型对不同质量图像的识别能力。
  • 常见的噪声种类有高斯噪声、瑞利噪声、伽马噪声、均匀噪声和椒盐噪声等
  • 在图像上增加噪声可以帮助 CNNs 学到更加鲁棒的特征
  • 但对于更加复杂的数据集以及多分类问题,模型训练本质是在欠拟合的情况下,噪声注入的图像扩增方式并不能带来新的有效信息,因此不能为模型带来提升效果
  • 对抗训练:为防御对抗攻击,采用对抗样本进行训练,可以视做一种数据增广方法,用以弥补模型自身的弱点

示例:

  • 前向噪声调整方案( forward noise adjustment scheme)
  • 30 类遥感图像场景数据集
  • 噪声叠加在图像上,产生“对抗样本( adversarial examples) ”
  • DisturbLabel

1.5 局部擦除


  • 不同于噪声是对图像离散的像素值信息的干扰,局部擦除则是图像局部区域所有像素值信息的丢失。
  • 迫使模型去学习图像中更宽广的具有描述性质的特征,从而防止模型过拟合于特定的视觉特征。
  • 根据数据和任务的不同,这种方法有时需要人为干预以保证其有效性。

示例:

  • 随即擦除(random erasing),可以视为一种在数据空间的dropout
  • Cutout 正则化 、Hide-and-Seek 、GridMask
  • 不规则区域的局部擦除

image.png

2. 多数据混合


多数据混合的方式希望将多幅图像的信息进行混合以产生新的训练数据, 可以从图像空间或特征空间进行信息混合。

2.1 图像空间的数据混合


  • 在图像空间进行数据混合的数据增广方法,可 以分为对多幅图像的线性叠加和非线性混合,是一 类与人类直觉不一致的数据增广方式
  • 虽然这类混合图像的方法看似不合常理,缺乏可解释性,但是对于提升模型的分类精度却十分有效,可以取得非常具有竞争力的 结果。

示例:

  • 基于线性混合图像:SamplePairing、mixup和Between-Class Learning
  • SamplePairing 对两幅图像求平均值的方式可以看做是在两个数据的中点进行插值,mixup 可以看做是拓展到线性插值得到新样本的版本

image.png

  • mixup 数据增广方法不仅可以提高深度神经网络模型的泛化能力,而且可以有效减少模型对错误标签的记忆,增加模型对于对抗样本的鲁棒性,甚至可以稳定生成对抗网络的训练。
  • “CNN 中的输入数据可以被视为 波形”,“波形混合”的角度解释了图像线性叠加数据增广方法的原理,类间学习方法( between-class learning,BC) 应用到图像上,随机的比例混合两幅图像,这类线性叠加图像的方法相当于一个正则项,希望模型尽可能向线性函数去拟合,以防止强非线性导致的过拟合问题
    image.png
  • 非线性图像混合
    image.png
  • 多图随机裁剪拼接混合
    image.png

2.2 特征空间数据混合


  • 借助 CNN 提取的图像特征,在特征空间进行数据增广。
  • 针对图像数据, 在特征空间进行数据混合的方法很少被采用。

示例:

  • SMOTE 方法,一种在特征空间上进行插值生成新样本的方法
  • 在特征空间外插值
  • 在数据空间进行图像变换的效果要优于特征空间变换

3. 学习数据分布


机器学习中的生成式方法,可以通过训练,学习数据集的潜在概率分布,在数据分布中进行过采样生成新数据,由于将整个数据集作为先验知识,这种数据增广方法在理论上是一种更加优秀的方法。

3.1 生成对抗网络


  • GAN 的核心思想源自博弈论的二人零和博弈 ( zero-sum game)
  • 在 GAN 中, 博弈的双方是生成器 G 和判别器 D,优化过程是一 个极小极大博弈( min-max game) 问题,使生成器和判别器在不断优化中各自提高自己的生成能力和判别能力。
  • 生成器的目标是学习真实数据的潜在分布,并生成新的数据样本,使其看起来和真的一样,达到欺骗判别器的目的
  • 判别器是一个二分类器,其目标是找到生成出的样本和真实数据分布之间的差异,判别输入的是真实数据还是生成的样本,并且计算并输出 一个样本是否来自于真实数据分布的概率值或者标量
  • GAN 生成的样本用于数据增广的有效性,并且相比图像变换这类经典的数据增广方法,可以取得更好的效果
  • 需要较为大量的数据来训练 GAN 模型,样本并不是真实世界存在的,不能将生成的样本当做真实的样本来对待

示例:

  • PG-GANs
  • BigGANs
  • DCGAN
  • conditional GAN
  • SiftingGAN
    image.png
  • 真假样本混合加权训练的数据增广方法

3.2 图像风格迁移


  • 风格迁移,或称为“图到图翻译( image-to-image translation) ”,可以视为一种广义上的图像变换,是 一类针对图像的领域迁移( domain transfer) 问题。
  • 本质上是建立一种不同数据分布之间的相互映射。

示例:

  • 基于 conditional GAN 提出 pix2pix 方法
  • 循环一致性生成对抗网络( cycle-consistent adversarial networks,CycleGAN))
    image.png
  • 人体器官 MR( magnetic resonance) 影像和CT影像之间的转换
  • 同一遥感场景下 SAR ( synthetic aperture rader) 和红外影像与可见光影像之间的转换
  • 神经风格迁移(neural style transfer),类似于颜色空间的光照变换

4. 学习增广策略


借助元学习( meta-learning) 和强化学习( reinforcement learning)训练一 个模型去自适应地选用最优的数据增广策略,来实现模型性能提升的最大化。

4.1 基于元学习的策略


  • 元学习的基本思想是希望模型像人一样学会“如何学习”,即基于过去学习的知识和经验总结学习方法,进而可以快速学习新知识、适应新任务和新环境。
  • 元学习最直接的一种理解为“用神经网络去优化神经网络”,而在数据增广方面,可以用神经网络去替代确定的数据增广方法,训练模型去学习更好的增广策略。

示例:

  • 输入随机选取的两幅同一类的图像,希望通过神经网络学习两幅图像共同的内容信息或者风格信息,进而得到一幅“增强图像”,再与原始图像一同输入到分类网络中进行分类模型的训练

4.2 基于强化学习的策略


  • 从给定的图像变换和混合方法中,搜索最优的组合策略
  • 如何对给定任务定制一组图像变换策略, 以进一步提高给定模型的预测性能,仍然是一个悬而未决的问题

示例:

  • 离散搜索问题
  • AutoAugment,选用了强化学习作为搜索算法,搜索最优策略
  • RandAugment,主要思想是随机选择变换并调解变换的强度

5. 方法分析与研究展望


5.1 不同数据增广方法选用分析


  • 采用不合适的变换方法则可能带来负面的效果。因此,方法的适用性成为使用数据增广时首先需要考虑的问题。
  • 虽然在选用数据增广方法时需要考虑不同种类、不同领域图像各自的特点,但是都需要具备一个核心原则: 在不改变图像原有语义信息的同时尽可能多地增加变化。
  • 由于自然图像和遥感图像在内容理解上都经常受到遮挡因素的影响,如 自然场景前景对背景的遮挡、遥感场景中云对地物的遮挡,裁剪和局部擦除的方法可以提高模型对遮 挡的鲁棒性,而对于医疗影像其成像方式的不同,不存在遮挡的问题,使用这类数据增广方法的有效性还有待验证。
  • 虽然在一些研究工作中已经证明使用 GAN 进行数据增广可以更有效地提高模型的精度,但是训练 GAN 模型需要一定数量的样本,对于数据量非常小的任务,不适合采用这类基于学习的方法。
    image.png

5.2 未来研究展望


  • 由于图像的维度很高,同时训练 GAN 的样本也非常有限,许多情况下 GAN 对图像数据的概率分布的拟合效果并不好,导致采样生成的图像质量难以保证,限制了 GAN 作为理论上最佳数据增广方法的发展。
  • 对于 GAN 风格迁移方面的研究和应用, 本质上是建立一种不同数据分布之间的相互映射, 对于现实生活中普遍存在的跨场景、跨模态的多领域分布的数据,可以通过构建这种映射来实现数据的互补。

6. 结语


  • 数据增广作为从数据层面提高机器学习模型性 能的一项重要手段,广泛应用于各个领域,尤其是那 些样本获取成本高、标注难度大的领域。
  • 按照增广数据的生成方式划分为四类:单数据变形、多数据混合、学习数据分布和学习增广策略
  • 基于学习的方法对于数据增 广同样具有广阔的发展前景,主要在于以下几个方面: 根据数据和任务基于强化学习探索最优的组合策略; 基于元学习自适应地学习最优数据变形和混合方式;基于生成对抗网络进一步拟合真实数据分布以采样高质量的未知数据;基于风格迁移探索多模态数据互相转换的应用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值