文章目录
数据增强调研报告
使用深度学习解决问题的一个常见障碍是训练模型所需的数据量。对大数据的需求是因为模型中有大量参数需要学习,在有限数据的情况下,数据增强至关重要。数据增强方法从问题的根源——训练数据集——开始进行。这是在假设可以通过扩充从原始数据集中提取更多信息的情况下完成的。这些增强通过数据扭曲或过采样人为地扩大了训练数据集的大小。数据扭曲增强是对现有图像进行转换,以便保留它们的标签。这包括几何和颜色转换,随机擦除,对抗性训练,和神经风格转移。过采样增强是创建合成实例,并将它们添加到训练集中。这包括混合图像、特征空间扩展和生成性对抗网络。过采样和数据扭曲扩展并不形成相互排斥的二分法。例如,GAN样本可以随机裁剪堆叠,以进一步扩大数据集。
本次调查中列出的增强是几何变换、颜色空间变换、核过滤器、混合图像、随机擦除、特征空间增强、对抗训练、基于GAN的增强、神经风格转移和元学习方案。
一、常用的增强技术
(一)几何变换
优点在于对于训练数据中存在的位置偏差,几何变换是非常好的解决方案。如果存在位置偏差,例如在面部识别数据集中,每个面部都完美地位于框架的中心,几何变换是一个很好的解决方案。除了克服位置偏差的强大能力之外,几何变换也很有用,因为它们易于实现,在许多图像处理库可以让水平翻转和旋转等操作轻松上手。
缺点在于几何变换的一些缺点包括额外的内存、变换计算成本和额外的训练时间。必须手动观察一些几何变换,如平移或随机裁剪,以确保它们没有改变图像的标签。最后,在医学图像分析等许多应用领域,训练数据与测试数据之间的偏差比位置和平移差异更复杂。因此,几何变换可以应用的位置和时间的范围相对有限。
挑战在于在几何增强过程中,我们要考虑几何扩增物的应用“安全性”,即它在转换后保留标签的可能性。因此在一定的失真幅度下保持标签不发生变换,也是目前存在的特定数据的扩增设计和开发通用扩增策略的挑战。
几何变换类型:
- 翻转
可以选择水平或垂直翻转图像。垂直轴翻转比水平翻转更常见。这种增强是最容易实现的方法之一,并且在诸如CIFAR-10和ImageNet这样的数据集上证明是有用的,但一些架构并不支持垂直翻转图像,例如:数字字符识别过程中(6&9)。
- 旋转
旋转增强是通过在1和359度之间的轴上左右旋转图像来完成的。旋转增强的安全性在很大程度上取决于旋转度参数。1到20度之间的轻微旋转可能对数字识别任务(如MNIST)有用,但随着旋转程度的增加,数据的标签在转换后不再保留。
- 3.平移
向左、向右、向上或向下移动图像是一种非常有用的变换,可以避免数据中的位置偏差。例如,如果一个数据集中的所有图像都是居中的,这在人脸识别数据集中是很常见的,这将需要在完全居中的图像上测试该模型。当原始图像在一个方向上平移时,剩余的空间可以用常数值(如0秒或255秒)填充,也可以用随机或高斯噪声填充。这种填充保留了图像增强后的空间维度。
- 缩放
图像可以被放大或缩小。放大时,放大后的图像尺寸会大于原始尺寸。大多数图像处理架构会按照原始尺寸对放大后的图像进行裁切。
- 剪裁
通过裁剪每个图像的中心块,裁剪图像可以用作具有混合高度和宽度尺寸的图像数据的实际处理步骤。此外,随机裁剪也可以用来提供非常类似于平移的效果。但随机裁剪和平移的区别在于,裁剪会减小输入的大小,例如(256,256) → (224,224),而平移会保留图像的空间维度。根据为裁剪选择的减少阈值,这可能不是一个保留标签的转换。
- 噪声注入
过拟合(Overfitting)经常会发生在神经网络试图学习高频特征(即非常频繁出现的无意义模式)的时候,而学习这些高频特征对模型提升没什么帮助。那么如何处理这些高频特征呢?一种方法是采用具有零均值特性的高斯噪声,它实质上在所有频率上都能产生数据点,可以有效的使高频特征失真,减弱其对模型的影响。
但这也意味着低频的成分(通常是你关心的特征)同时也会受到影响,但是神经网络能够通过学习来忽略那些影响。事实证明,通过添加适量的噪声能够有效提升神经网络的学习能力,即给图像添加噪声可以帮助CNNs学习更健壮的特征。
一个“弱化”的版本是椒盐噪声,它以随机