Data Augmentation in Classification and Segmentation: A Survey and New Strategies
Abstract
- 在过去的十年里,深度神经网络,特别是卷积神经网络,已经彻底改变了计算机视觉。然而,所有的深度学习模型都可能需要大量的数据才能达到令人满意的结果。不幸的是,对于现实世界的问题,并不总是能够获得足够数量的数据,而且众所周知,数据的缺乏很容易导致过度拟合。这个问题可以通过几种方法解决,其中之一是数据扩充。本文综述了计算机视觉任务中现有的数据增强技术,包括分割和分类,并提出了新的策略。特别地,我们介绍了一种通过使用图像中的局部信息来实现数据扩充的方法。我们提出了一种无参数且易于实现的策略,即随机局部旋转策略,它包括随机选择图像中圆形区域的位置和大小,并以随机角度旋转它们。它可以作为传统旋转策略的替代方案,传统旋转策略通常会受到不规则图像边界的影响。它还可以补充数据扩充中的其他技术。大量的实验结果和比较表明,新策略在图像分类等方面始终优于传统策略。
- 论文地址:(PDF) Data Augmentation in Classification and Segmentation: A Survey and New Strategies
Introduction
-
深度神经网络,如卷积神经网络(CNN),已被用于计算机视觉中的许多研究应用,如动作识别,对象检测和定位,人脸识别和图像表征。他们在许多具有挑战性的计算机视觉任务中取得了优于传统方法的性能。然而,它们的缺点,如大规模的数据要求,长时间的训练,过度拟合,以及数据稀缺时的性能下降,可能会阻碍它们的推广和有效性。
-
CNN模型展示的丰硕成果鼓励研究人员追求更高精度的模型。这些结果通常是通过构建更复杂的架构来实现的。请注意,模型复杂性通常由可训练参数的数量来描述。模型的可训练参数越多,它就越复杂。更具体地,模型复杂度也可以根据层的数量(即,非线性)和各个层中神经元(例如,滤波器)的数量来定义。另一方面,在监督学习中,除了类内差异之外,还可以根据类间多重性(即,不同的类)来确定数据复杂度。一般来说,所需数据和模型的复杂程度是成比例的。如果训练数据不足,复杂的模型可能容易出现记忆训练数据的问题。同样众所周知的是,深度神经网络的盛行部分是因为大容量数据的可用性。由于其复杂的结构,网络可以很容易地记忆数据点。
-
然而,在数据不足的情况下,模型架构的日益增加的复杂性可能会加剧CNN模型的缺点。当采用复杂的CNN模型时,最明显的问题之一是过度拟合问题,它可以被描述为训练和验证/测试阶段之间的性能差异,其中模型失去了概括的能力。过度拟合通常发生在模型对于数据来说过于复杂或者数据本身不足的时候。图1显示了一个过拟合模型的损耗曲线示例。
-
-
图一。训练和验证损失曲线的图解。训练和验证损失同时减少,直到拟合点。之后,验证损失开始上升,而训练损失仍在下降,即所谓的过拟合。过度拟合与训练数据的良好表现相关,但与验证/测试数据的较差概括相关(参见,欠拟合与训练数据的较差表现和验证数据的较差概括相关)。
-
-
虽然在训练的早期阶段,训练精度和验证精度同时提高,但在某个点之后,它们会出现分歧,此时模型开始失去泛化能力。降低模型复杂性、应用正则化和/或获取更广泛的数据量等策略被认为可以缓解深度学习模型中的过拟合问题,见图2。
-
-
图二。说明过拟合问题及其众所周知的解决方案的图表。
-
-
正则化技术是在模型架构层次上实现的 ,例如 dropout ,ridge regression (L2正则化)和Lasso regression (L1正则化)。这些技术的主要目标是在训练期间降低神经网络模型的复杂性,这被认为是过度拟合背后的主要原因,特别是当模型在小数据集上训练时。其他技术,如批量标准化和迁移学习,可以加快训练过程,也有助于防止过度拟合。这些技术可以被视为通过创新新的复杂深度神经架构来追求更高性能的持续竞争的副产品,如VGG-16 、ResNet 、Inception-V3 和DenseNet 。事实上,这些模型的目的是在大型数据集上实现更高的准确性,如Imagenet ,它有超过1400万张图像。然而,当将这些模型应用于具有小数据集的小规模应用时,它们通常遭受较差的泛化和过拟合,这表明有必要开发方法来降低它们的复杂性。
-
数据扩充方法包含了更广泛的技术,这些技术在数据层而不是在模型架构层发挥作用。它可以帮助深度学习模型更好地执行,方法是为训练数据集人工创建不同且多样化的样本,这些样本具有平衡的类别。当数据集在数量和质量方面足够时,深度学习模型的表现更好,也更准确。换句话说,训练数据必须满足两个要求,即足够的多样性和规模,这两者都可以通过数据扩充来实现。
-
数据扩充可以基于应用它的预期目的(即,增加训练数据集大小和/或多样性)来分类,或者可以基于问题来分类。下面是后者的例子:提出了随机擦除技术来解决遮挡问题;旋转和翻转被认为可以部分解决视点问题;亮度用于解决照明的变化;裁剪和缩放用于解决缩放和背景问题。特别是,最流行的数据增强分类将其分为基于深度学习的数据增强和传统数据增强,传统数据增强又进一步分为几何、光度和噪声数据增强,参见图3。关于数据增强的深度学习方法的综述,参见例如[A review of medical image data augmentation techniques for deep learning applications,Using synthetic training data for deep learning-based GBM segmentation]。
-
-
图3。数据扩充(DA)分类法。
-
-
一些评估数据增强效果的研究利用标准的学术图像数据集来评估结果。例如,MNIST、CIFAR-10、CIFAR-100和ImageNet是四种常用的数据集 。请注意,其中一些数据集,尤其是 ImageNet,被视为“大数据”,可能不需要数据扩充技术来进一步增加其大小。为了模拟数据稀缺的挑战,许多测试数据扩充技术的实验将自己限制在原始大数据集的小子集。值得强调的是,除了数据数量之外,数据扩充技术也可用于提高数据的多样性。
-
这项调查主要关注在图像分类和分割中使用数据增强技术的近期文章,而不考虑研究中使用的数据增强类别、模型或数据集。据我们所知,在图像分类和分割中的数据扩充领域的调查很少。本文的另一个主要贡献是我们提出了一种新的几何数据扩充技术,它可以补充当前的数据扩充策略。众所周知,传统旋转是最常用的几何数据扩充技术之一,见图4。
-
-
图4。传统旋转。左和右:给定图像(来自CIFAR-10数据集)和具有随机旋转角度的旋转图像。黑色区域出现在旋转图像的角上,并且给定图像的角在旋转图像中被切掉。
-
-
然而,它也有缺点;例如,旋转时丢失大量像素信息。值得注意的是,以圆形轨迹旋转方形图像会在边界处产生黑色斑块,这不能准确地反映原始数据,并且可能影响最终的增强性能。通过 wrap, constant, reflection, and/or nearest 旋转技术用修改后的像素值填充这些黑色斑块是解决这一问题的常见方法(见图5)。在这项研究中,我们建议利用图像中的局部信息,并提出进行随机和局部旋转,以解决传统旋转的局限性。我们把我们的方法命名为 “随机局部旋转” ( R L R ) \textcolor{red}{“随机局部旋转”(RLR)} “随机局部旋转”(RLR)。RLR通过选择任意的位置、面积和角度来旋转图像的内部圆形区域,这很容易实现。以局部方式执行的旋转避免了在图像边界附近形成黑色区域。此外,该方法还可以提高数据的多样性。大量的实验表明,与传统的旋转技术相比,它具有更优越的性能。
-
-
图5。通过不同类型的旋转技术增加数据。第一行左边的三个图显示了“constant”技术,即 传统的旋转 ( T R ) \textcolor{red}{传统的旋转(TR)} 传统的旋转(TR),导致边界周围的黑色区域。第一行的右三个图形使用了RNR技术。第二行的前三个数字给出了使用RRR填充黑色区域的结果,右边的三个数字使用RWR。对于每种技术,选择三个随机角度进行旋转。
-
-
本文的其余部分组织如下。第2节和第3节分别回顾了最常见的传统数据增强方法和最常见的基于深度学习的数据增强方法。第4节回顾了一些最近的研究图像分类和分割利用数据增强性能。第5节和第6节介绍了我们提出的数据增强方法和验证其良好性能的实验结果。我们在第7节结束我们的研究。
Traditional Data Augmentation Techniques
- 本节简要回顾了最常用的传统数据扩充方法。
Geometric Transformations
-
基本的几何运算。像翻转、裁剪和随机旋转,仍然是受欢迎的扩充数据的技术。它们通常会增加数据大小以提高数据多样性,并且相当容易应用,更多详细描述见下文。
-
翻转。术语翻转指的是水平或垂直翻转图像的过程,参见图6。最常用的翻转是水平翻转,因为它更真实。例如,猫对狗数据集可以包括从观众视角向左的所有狗图像。不足为奇的是,经过训练的模型可能会对向右走的狗进行错误分类。缓解这个问题的最好方法是收集更多的训练图像,这些图像包括尽可能多的不同视图。当收集更多图像很困难时,翻转可以直接解决这类问题。
-
-
图6。通过翻转增加数据。图像从左到右分别表示给定图像、水平翻转图像、垂直翻转图像以及水平和垂直翻转的图像。
-
-
翻转是增加数据大小或多样性的最直观的策略之一。但是,当数据具有唯一属性时,这可能不合适。例如,考虑到 [A survey on image data augmentation for deep learning] 中讨论的标签安全概念,非对称或方向敏感数据,如字母或数字,不能使用翻转策略,因为它会导致不准确的标签,甚至相反的标签。
-
裁剪。裁剪是一种基本的增强技术,它随机裁剪给定图像的一部分,然后将裁剪部分的大小调整回某个大小。由于训练数据可能包括不同大小的样本,在训练之前将图像裁剪到一定大小是一个广泛使用的步骤 。
-
值得一提的是,裁剪可能会生成标签不正确的样本。例如,当使用裁剪技术时,包含多个对象的图像(根据具有主要尺寸的对象进行标记)可能会遇到问题。在这种情况下,可以裁剪给定图像的一个区域,该区域具有伴随物体的更多细节,而不是主要物体,参见图。训练现代艺术级架构的传统策略是裁剪给定图像的8%的小块,并将其标记为与给定图像相同。这经常导致扩充数据中的不正确标记,如图7所示的例子。
-
-
图7。通过裁剪增加数据。左图和右图:标记为“狗”的给定图像(来自ImageNet)和裁剪后的补丁。很明显,“狗”在裁剪的小块中不再可见。
-
-
旋转。旋转是一种简单的几何数据扩充技术。图像被旋转指定的角度,新创建的图像与原始图像一起用作训练样本。旋转的缺点是可能导致图像边界的信息丢失,见图4和图5的第一行。有几种可能的解决方案,例如,随机最近邻旋转(RNR)、随机反射旋转(RRR)和随机环绕旋转(RWR),来解决旋转图像的边界问题。特别地,RNR技术重复最近的像素值来填充黑色区域,而RRR技术采用基于镜像的方法,RWR技术使用周期性边界策略来填充间隙;参见图5中的示例。
-
这些几何数据扩充技术已被证明在提高多样性和增加数据量方面非常有效。例如,Mash等人使用一个包含10个类别的细粒度数据集来测试飞机分类任务的各种几何增强方法。裁剪、旋转、缩放、多边形遮挡以及这些技术的组合都经过了测试。结合遮挡的裁剪技术实现了最高的改进,即,相对于基准测试结果,任务性能提高了9%。然而,他们的研究没有检查光度数据增强策略(见下文)。
Photometric Transformations
-
一种不同类型的传统变换是改变像素的值而不是它们的位置。这种方法包括不同的技术,例如改变亮度、对比度和/或颜色。
-
通常,数字图像被编码为三维张量,即高度×宽度×颜色通道。不同颜色表示方案之间的差异在于张量的通道部分。例如,RGB颜色表示方案使用三个颜色通道(即,红、绿和蓝)的组合来表示各个像素。操纵这些单独的色彩通道是色彩增强中非常基本的技术。例如,如果将其他颜色通道设置为黑色,图像可以迅速转换为其在一个颜色通道中的表示。
-
除了RGB颜色空间,还有许多其他颜色空间。例如,HSL颜色表示方案结合了色调、饱和度和亮度来表示单个像素。色调是没有色彩或阴影的单一颜料。饱和度指的是颜色的强度,明度指的是颜色的亮度。HSL是用户友好的,因为使用这三个属性的不同值可以方便地看到特定颜色是如何出现的。从一个颜色空间转换到另一个颜色空间对于数据扩充是一种有用的技术。
-
色彩抖动是一种光度数据增强技术,采用随机色彩处理 或 预定色彩调整,例如随机改变图像的亮度、对比度或色彩属性,参见图8。
-
-
图8。通过颜色抖动增加数据。(a–d)分别表示给定图像和通过处理色彩饱和度、亮度和对比度增强的图像。
-
-
增加数据的传统光度测量技术可能具有局限性,例如,高存储和计算要求。此外,它们可能导致重要的图像信息丢失,特别是当特征是能够区分不同数据集类别的比色特征时。
Kernel/Filter
-
内核在深度学习中起着重要的作用。它可以通过在图像上滑动窗口,从给定的图像中提取某些特征作为过滤器。CNN模型可以通过根据反向传播过程自动更新其核值来从图像中学习特征。类似地,具有不同值的核也可以用于进行数据扩充,并生成包含特定特征的特定图像。
-
在计算机视觉中,滤波器可用于边缘检测(例如,使用Sobel 或Canny 滤波器)、锐化(例如,使用高对比度垂直或水平边缘滤波器)和模糊(例如,使用高斯滤波器)。特别地,改善图像内对象边缘的边缘增强可以用于数据扩充。假设使用具有增强边缘的训练图像可以提高CNN的性能,因为CNN中学习的内核可以更容易地检测物体的形状。类似地,模糊图像也可以用于数据扩充,并可以使模型更能抵抗模糊或噪声。图9显示了一个使用不同内核/文件管理器来增强图像的例子。
-
-
图9。使用内核/过滤器的数据扩充。
-
Noise Transformations
-
噪声通常被定义为亮度或颜色信息的随机变化。这通常是由图像捕获传感器的技术限制或恶劣的环境条件造成的。不幸的是,这些问题在实际情况下往往是不可避免的,使得图像噪声成为一个普遍需要解决的问题。
-
数据中的噪声似乎是神经网络的一个特殊问题。现实世界的数据很少是完美的。当在真实世界数据上评估神经网络时,噪声会损害它们的准确性,并导致它们在泛化方面表现不佳。至少,用于测试深度学习模型的数据可能没有用于训练它们的数据干净。这可能解释了为什么深度神经网络模型经常在测试中表现不佳。它们的稳健性可以通过用不同类型的噪声增加数据来提高。高斯噪声、椒盐噪声和斑点噪声是三种众所周知的噪声形式,可用于增强图像数据,例如,参见图10。
-
-
图10。利用噪声变换进行数据扩充。
-
-
高斯噪声是概率密度函数等于正态分布的统计噪声。高斯噪声的分布在整个信号中是均匀的。因为它是加性噪声,所以噪声图像中的像素由它们的原始像素值加上随机高斯噪声值的总和组成。它在每个像素上也是独立的,并且与信号幅度无关。椒盐噪声也称为“尖峰噪声”或“脉冲噪声”。它会导致黑白像素出现在图像的随机点上。这种噪声主要是由数据传输错误造成的。斑点噪声是倍增的。它是通过将随机值乘以不同的图像像素而生成的。上述这些不同类型的噪声通常分散在图像级上。当它们用于增强数据时,深度学习模型可能会对包含某些类型噪声的数据产生抗性。
Random Erasing
- 随机擦除是一种数据扩充技术,一般不试图改变单个图像像素值。相反,它用一个随机值替换图像中随机大小矩形内的像素值,参见图11。我们可以把随机擦除看作是一种噪声技术,集中于局部区域而不是单个像素。它旨在使模型抵抗图像(例如,数据集CIFAR-10、CIFAR-100和ImageNet)中对象的遮挡,从而降低过拟合的可能性。它在不增加数据量的情况下,从整体上增强了数据的多样性,这与前面提到的其他数据扩充方法不同。
-
-
图11。用随机擦除技术增加数据。第一行和第二行分别代表给定图像(来自CIFAR-10)和随机擦除后的图像。
-
- 由于随机擦除技术随机选择矩形区域(即,遮挡区域),所以它可以完全擦除图像中要分类的对象信息。因此,不建议对敏感数据进行分类,这些敏感数据无法承受删除图像中随机生成的局部区域,例如对车牌号码和字母进行分类。
Deep Learning-Based Data Augmentation Techniques
- 本节简要回顾了最常用的基于深度学习的数据增强方法。
Texture Transfer
-
纹理迁移 旨在从源图像生成纹理,同时保持对源图像语义内容的控制,例如,参见图12。它允许生成具有给定纹理的新图像,同时保留原始图像的视觉特征,如轮廓、阴影、线条、笔画和区域。研究表明,CNN偏向于对象的纹理而不是形状,这表明使用纹理传递可能会使模型更具纹理抗性。
)- 图12。通过纹理传递进行数据扩充。将基础图像(左)的内容与参考样式图像(中)的样式混合,以获得结果图像(右)。
-
大多数传统纹理传输方法将纹理重新采样到每个特定的内容图像中。例如,图像拼接通过将其他图像的小块拼接在一起来创建新的图像。[Image analogies]中的工作开发了一种图像模拟技术,使用像素重采样将纹理从一幅图像转移到另一幅图像。可以将新生成的图像添加到训练数据集中,以扩大数据大小并增强其多样性。
Adversarial Training
- 对抗性例子,也称为机器幻觉,在深度学习社区中引起了相当大的关注。对立的例子也可以被视为噪声注入数据增强家族的成员。通过将系统噪声注入给定图像,CNN模型输出完全不同的预测,即使人眼无法察觉差异,见图13。例如,[One pixel attack for fooling deep neural networks]中的工作通过改变每个图像的单个像素创建了对立的例子。对抗性训练是将这些示例添加到训练集中,以使模型对攻击具有鲁棒性。由于对立的例子可以检测训练模型中的弱点,这种扩充数据的方式可以被视为有效的数据扩充方法。
-
-
图13。 尽管给定的图像和添加了敌对噪声之后的图像在人眼看来完全相同,但是噪声成功地欺骗了模型,即,模型将两个图像标记为不同的类别。
-
Generative Adversarial Networks for Data Augmentation
- 受对抗实例的启发,提出的生成对抗网络(GAN)已被广泛用于数据增强。GANs创建的合成图像,即使是人类也很难从真实图像中区分出来,这有助于模型显著提高其鲁棒性。GAN由两个网络组成,即创建新图像的生成器和尝试检测生成的图像是真是假的鉴别器。对于GANs的变体,请参考例如DCGAN [63]、渐进生长GANs 和CycleGANs 。
Data Augmentation in Image Classification and Segmentation
- 使用传统转换技术执行的数据扩充仍然是学术界最流行的方法,因为它们简单。通常,传统的和基于深度学习的增强方法要么单独使用,要么串联使用。图像分类和图像分割是计算机视觉中两个常见但重要的研究领域,通常使用数据增强方法。在本节中,我们将讨论这两个领域中利用数据扩充提高性能的最新研究,大部分是在过去五年中进行的。
Data Augmentation on Image Classification
-
许多工作已经在图像分类任务中使用了数据增强,它们的结果因模型、数据和应用等方面的不同而不同。这方面的简要调查见表1。
-
2017年,基于深度学习的增强方法,如GANs,并没有明显优于传统技术,但消耗了近三倍的计算成本。此外,在[The effectiveness of data augmentation in image classification using deep learning]中,使用传统的增强技术和CycleGAN 的风格转移来训练称为“SmallNet”的模型。据观察,将基于深度学习的方法与传统技术相结合可以取得更好的结果。Hussain等人使用VGG-16评估了医学图像数据集的各种增强策略。他们证明了翻转和高斯滤波器增强技术与其他技术相比产生了更好的结果,特别是在添加噪声时,这给出了最低的准确性。Pawara等人应用了数据增强技术,如旋转、模糊、对比度、缩放、照明、投影变换以及这些技术的多种组合,以增强植物图像分类性能。在这个挑战中,使用了预训练和未训练的AlexNet和GoogleNet模型。据观察,从头开始训练的CNN模型从数据扩充中受益匪浅,而预先训练的CNN模型则没有。此外,我们发现,旋转和各种照明等数据增强技术的组合可以为从头开始训练的CNN模型提供最大的帮助,以实现出色的性能。
-
在2018年,Inoue等人开发了一种称为SamplePairing的新技术,其中通过叠加从训练数据中随机选择的另一幅图像,即取两幅图像的平均值,从一幅图像中合成一个新样本。李等人发现,传统的数据扩充技术是不累积的,样本量增加三倍往往足以达到上限。此外,作者提出的PBP技术显著增加了样本数量,并被证明是高光谱图像分类的有效方法。FridAdar等人使用小型定制CNN架构对肝脏病变进行分类。为了适应小数据集和输入大小,他们建议CNN设计应该包含更少的卷积层。通过将传统的数据增强技术与基于GAN的合成图像相结合,从小数据集获得了更准确的结果。Pham等人讨论了如何通过应用图像数据增强技术(如几何增强和颜色增强)来解决医学图像中皮肤损伤分类和有限数据的挑战。
-
评估了不同数量的增强样本对不同分类器性能的影响,并得出结论,皮肤癌分类器和医学图像分类器的性能可以通过利用数据增强来提高。Motlagh等人使用6402组织微阵列(TMAs)作为训练样本,并利用迁移学习和深度神经网络,对几种形式的癌症进行了分类。数据扩充技术,如随机缩放、旋转、裁剪和翻转,用于获得足够不同的样本,结果显示,使用ResNet50预训练模型,四种癌症类型(包括乳腺癌、膀胱癌、肺癌和淋巴瘤)的99.8%被正确分类。
-
在2019年,郑等人在加州理工学院101和加州理工学院256数据集上使用VGG16评估了神经类型转移的有效性,结果显示准确率提高了2%。最近的研究表明,神经风格转移算法可以将一幅图像的艺术风格应用于另一幅图像,而不改变后者的高级语义内容,这表明神经风格转移可以用于数据扩充,以向训练数据集添加更多变化。
-
2020年,Ismael等人采用数据增强来解决脑癌MRI图像分类任务中训练数据不足和类别不平衡的问题。使用了各种增强技术,包括水平和垂直翻转、旋转、移动、缩放、剪切和亮度改变。他们观察到每种增强技术对不同类别的表现有不同的影响。举例来说,对亮度的操作对第一类产生了96%的准确度,而旋转技术对同一类产生了98%的准确度。对于第二类来说,这两种技术在亮度和旋转上分别获得了99%和98%的分数。
-
通过结合前面提到的所有增强技术,他们能够获得99%的总体准确性,即比没有数据增强的结果提高了4%。此外,Gour等人开发了ResHist,这是一种基于残差学习的152层CNN,用于乳腺癌组织病理学图像分类。设计了一种基于色斑归一化、图像补片生成和仿射变换的数据扩充策略,以提高模型性能。实验结果表明,在数据扩充的帮助下,用于组织病理学图像分类的模型性能优于预先训练的网络,包括AlexNet、VGG16、VGG19、GoogleNet、Inception-v3、ResNet50和ResNet152。
-
2021年,Kandel等人使用MURA数据集检查了测试时间增加(TTA)对骨折检测X射线图像的影响。通过比较九种不同增强技术与五种最新CNN模型的性能,观察到TTA可以显著提高分类性能,特别是对于得分低的模型。Nanni等人研究了十多种不同类型的数据增强技术的性能,包括核滤波、色彩空间变换、几何变换、随机擦除/剪切和图像混合,并提出了两种方法:离散小波变换和常数Q Gbor变换。使用上述数据增强技术,在四个基准图像数据集(即,病毒数据集、树皮数据集、肖像数据集和LIGO毛刺数据集)上评估了几个ResNet50网络的性能,这四个基准图像数据集代表不同的问题和不同的规模,表明了数据增强技术在增强模型性能方面的功效。此外,调查了使用深度学习增强新冠肺炎和心脏病分类的ECG图像的影响。他们认为,在心电图信号图像的实验中,传统的数据增强并没有提高神经网络的性能。
Data Augmentation on Image Segmentation
-
图像分割也是计算机视觉中的一个重要领域。它包括将图像分成不同的部分,其中每个部分可以共享某些特征和特性。它与图像分类有着密切的关系。例如,在某种意义上,图像分割可以通过将图像中的单个像素分成不同的组来实现。为了获得更好的分割结果,特别是在处理小的训练数据集时,大量的重点放在了数据扩充上。对于实际的语义分割应用,为深度神经网络收集和注释足够的训练数据是众所周知的困难。因此,数据增强技术非常重要。下面,我们调查了一些在图像分割任务中涉及数据扩充的研究。相关文献的总结见表2。
-
2018年,使用了一种编码器-解码器结构,改编自沙漏网络,流行于人体姿势估计领域,以便对BraTS 2018挑战赛的MRI扫描中的脑肿瘤进行分类和分割。使用了两种数据增强技术:垂直翻转,它匹配大脑的自然对称形状,以及随机强度变化,因为MRI扫描之间的强度变化很大。网络在有和没有数据增强的情况下被训练。人们发现,数据扩充似乎为Dice系数提供了少量的精度增加,并显著提高了Hausdorff的精度。
-
-
表二。近期图像分割工作中的数据增强技术综述。
-
-
2019年,Casado等人提出了一种通用方法,该方法在开源包CLoDSA中实现,专用于分类、语义分割、实例分割、定位和检测。使用了三个不同的数据集来展示应用数据扩充的好处。马等人创建了SSG数据集,即一个小规模和开源的绵羊分割数据集,包含数百张图像。为了找到这个小型语义分割数据集的最佳技术,他们评估了七种数据增强方法,包括颜色转换、翻转、裁剪、投影转换、本地复制、一种称为“JPEG压缩”的拟议技术及其组合。实验结果表明,压缩、裁剪和局部移位的组合可以为它们的AI-Ranch应用实现最佳的增强性能。然而,他们也发现过度增强会降低性能。
-
2020年,乔等人介绍了一种数据增强技术,其中图像被随机裁剪成不同的区域,然后拼接在一起形成一个新的区域。在他们获得的牛数据集上的实验结果表明,这种数据增强技术,加上开源语义分割CNN架构“Bonnet”,实现了99.5%的平均准确性和97.3%的平均交集。带有ResNet34编码器的U-Net神经网络被用于使用两个小卫星RGB图像数据集对高分辨率航空照片进行自动野火检测。为了克服小数据量的挑战,使用了数据增强技术,如HSV颜色格式的旋转、移动和随机色彩失真,以提高深度学习算法对噪声图像的鲁棒性,如小云和反射表面的眩光。实验结果表明,对于实验中使用的所有度量,数据扩充方法在测试数据集上产生了更好的结果。Qin等人认为,通过常规增强技术(例如,旋转、裁剪等)生成的数据。)是随机的,有时对图像分割过程有害。鉴于此,一种基于自动学习的数据增强技术被开发用于CT肾脏肿瘤分割。
-
[Enhancement of Tongue Segmentation by Using Data Augmentation]中的工作集中在使用15个不同的预训练网络模型(如VGG、ResNet、ResNext、DenseNet、EfficientNet、inceptionV3、SE-ResNet、inception、ResNetV2等)的自动舌分割。).他们利用多重标签保留变换来增加训练数据集的大小和多样性。他们的研究结果表明,几何变换可以获得比颜色变换更好的性能,与没有增强相比,分割精度可以提高5%到20%。
-
2021年,提出了一种用于图像分割的数据增强技术,名为ObjectAug。ObjectAug技术在对象级操作,首先使用语义标记将图像分离成单独的对象和背景,然后使用传统的增强技术(例如,缩放、移位和旋转)单独增强每个对象,随后进行图像修补,图像修补用于进一步恢复由对象增强引入的像素赝像。最后一步是将增强的对象和背景集成到增强的图像中。在正常和医学图像数据集上的大量实验表明,ObjectAug技术优于传统的增强技术,并提高了分割性能。Cirillo等人研究了在BraTS数据集 上训练标准3D U-Net 时,翻转、旋转、缩放、亮度调整和弹性变形等增强技术如何影响学习过程。在多个案例中,他们的发现表明数据扩充显著提高了验证性能。他们推测,数据增强没有被彻底研究用于脑肿瘤分割的原因是因为BraTS训练集相当大,并且几项工作表明数据增强不会有太大帮助。
-
Mallios等人研究了图像引导放射疗法 ,这是治疗多种类型癌症的最流行方法之一。他们的研究包括开发深度学习方法,用于在放射治疗期间分割CT图像中的风险器官。据观察,由于该领域手工注释的困难和耗时性质,注释数据的稀缺阻碍了医学应用的研究发展。为了弥补训练非常深的模型所需的标记真实世界数据的短缺,如FCN,cGAN 用于生成合成图像。实验结果表明,在基于深度学习的数据增强的帮助下,所提出的直肠分割方法具有优越的性能。基于随机图像裁剪和修补(RICAP)方法,提出了一种用于语义分割的扩充数据的框架。使用Bonnet架构在两个数据集上进行的实验表明,所开发的框架在精确度和联合平均交集方面提高了分割性能。
Proposed Strategy for Data Augmentation
-
在本节中,我们提出了一种新的数据扩充技术,属于传统的数据扩充范畴。它的灵感来自于专注于图像中局部区域的技术,例如随机擦除技术。
-
设D为训练数据集。设 C x , y , r C_{x,y,r} Cx,y,r 是图像 I ∈ D I\in D I∈D 中的一个圆形区域,中心位置为(x,y),半径为r,设 θ ∈ [ 0 , 2 π ] \theta \in[0,2\pi] θ∈[0,2π] 是旋转的角度。
-
下面给出了所提出的增强技术的主要过程。首先, ∀ I ∈ D ∀ I \in D ∀I∈D,我们在图像I中选择一个圆形区域 C x , y , r C_{x,y,r} Cx,y,r,随机生成中心 (x,y) 和半径r。然后,圆形区域 C x , y , r C_{x,y,r} Cx,y,r 内的图像内容以随机生成的角度 θ ∈ [ 0 , 2 π ] \theta \in[0,2\pi] θ∈[0,2π] 旋转,而圆形区域 C x , y , r C_{x,y,r} Cx,y,r 外的图像内容保持不变,我们将这个新生成的图像称为 I ˉ \bar I Iˉ。最后,image I ˉ \bar I Iˉ 用于扩充原始训练数据集D。这里我们建议两种方法。第一种是用生成的image I ˉ \bar I Iˉ 替换原image I ∈ D I \in D I∈D,这种方式不改变数据集D的大小,但可能改变数据的多样性。另一种方法是将image I ˉ \bar I Iˉ 添加到数据集D中,这增加了数据集的大小,增强了数据的多样性。我们将上述技术称为随机局部旋转(RLR),参见图14,该图显示了RLR数据增强策略和算法1的实施,用于RLR的总结。
-
-
图14。提出了随机局部旋转数据增强策略。符号表示逐点乘法。
-
-
-
RLR的一个特殊情况是在图像中心使用尽可能大的圆形旋转区域,见图15。在本文的其余部分,我们称这种特殊情况为随机中心旋转(RCR)。RCR可以直接替代传统的旋转技术进行数据增强。
-
-
图15。使用图像中心最大可能圆形旋转区域的随机局部旋转数据增强技术。
-
-
RLR相对于传统旋转的一个明显优势是,它避免了传统旋转引起的黑边界,如图4所示。此外,RLR带来的局部信息失真可以提高数据多样性,而不会像其他增强技术(如图像裁剪、随机擦除等)那样从给定图像中删除太多信息。RLR的详细验证将在下一节中介绍。
Experiments
- 为了验证所提出的RLR增强技术,我们采用了三种最先进的CNN模型,即ResNet50、MobileNet和InceptionV3,它们都是从头开始训练的。我们在分类和分割任务中进行了实验,主要与随机选择旋转角度的传统旋转技术(简称TR)进行了比较。通过重复实验五次,获得了以下报告的定量结果(标准偏差)。
Classification Experiment
- 选择CIFAR-10数据集进行分类任务的实验。它包含60000张彩色图像,每张图像的大小为32×32。总共有50000张图像用于训练,10000张图像用于测试。CIFAR-10由10个类组成,每个类有6000张图像。为了模拟数据稀缺的情况,我们将原始训练数据大小减少到2%、4%和6%,形成三个子集,样本数量分别为1000、2000和3000,并使用原始测试集进行测试。
- 对于每个子集,通过TR、RCR和RLR数据增强技术创建了三个额外的副本。每个增强副本都是其相应原始子集的两倍大。在构建这些子集时,还考虑了类之间的数据平衡。此外,调整了图像分辨率以适应实验中使用的每个CNN模型的默认输入形状,即InceptionV3为 299×299,MobileNet和ResNet50为244×244。根据构建的数据集,每个模型共进行了12次测试(即子集数量×技术数量)。
- 为了公平比较,每个模型都保留了相同的超参数。使用Adam优化器和分类交叉熵损失函数对模型进行了50个epoch 的训练。选择测试精度作为监测指标。Spyder平台用于训练和评估模型。
Classification Results
-
表3给出了三个子集上采用TR、RCR和RLR数据增强技术的CNN模型(即ResNet50、MobileNet和InceptionV3)的分类准确性,包括与基线结果(即不使用数据增强在子集上获得的结果)的比较。
-
-
表3。TR、RCR和RLR数据增强技术的分类精度比较。CNN模型,即MobileNet、ResNet和InceptionV3,采用数据增强技术,应用于三个不同的CIFAR-10子集,样本数量分别为1000、2000和3000。结果表明,所提出的RLR技术具有优越的性能。
-
-
为了进一步评估性能,我们还报告了RLR方法与最常用的传统数据增强技术的比较,见表4。CIFAR-10的最小子集(即具有1000个样本的子集)用于数据增强技术,包括RLR、RNR、RWR、RRR、翻转、移动、缩放和亮度。表4中的结果表明,一般来说,数据增强技术确实可以提高不同模型的性能。它再次证明了所提出的RLR方法的出色性能;例如当使用ResNet模型时RLR达到了最佳精度。表4中的结果还表明,不同模型的增强技术的性能可能不同,值得在未来进一步研究。
-
-
表4。RLR和其他常见数据增强技术之间的分类精度比较。CNN模型,即MobileNet、ResNet和InceptionV3,采用数据增强技术,应用于CIFAR-10的最小子集(即1000个样本的子集)。
-
Qualitative Comparison via Saliency Maps
-
为了进一步评估所提出的RLR技术对传统旋转的有效性,我们采用了 GradCAM,这是一种众所周知的方法,用于说明CNN的决策,以显示TR和RLR技术的显著性图。
-
图16显示了从测试数据集中随机选择的图像上TR和RLR技术的显著性图。通过使用TR增强技术训练的MobileNet模型,卡车图像(图16中的第一行)被分类为94%的卡车(这里的百分比是CNN架构中Softmax激活函数产生的概率),而使用所提出的RLR技术训练的卡车图像几乎为100%。鸟类图像(图16中的第二行)通过用TR增强技术训练的ResNet50模型被分类为95%的鸟类,而通过提出的RLR技术被分类为近100%的鸟类。图16所示的TR和RLR技术的显著性图表明,所提出的RLR技术在协助CNN架构根据测试图像中更合理的区域做出决策方面确实更有效。
-
-
图16。基于显著图的数据增强技术评估。第1列:给定图像;第2列和第3列:TR的两种显著性图;第4列和第5列:RLR的两种显著性图。具体地,对于评估每种数据扩充技术的两种类型的显著性图,第一显著性图突出显示给定图像中的激活区域,第二显著性图使用给定图像的内容突出显示激活区域。第一行和第二行中用于测试图像的CNN分别是MobileNet和ResNet50。为用RLR增强的数据集训练的模型创建的显著图清楚地聚焦于对象的更宽部分,而对于用TR实现增强的其他情况,模型聚焦于对象的更小区域。用RLR训练的模型输出更可靠的结果,以及在上面的显著性图中显示的对目标对象的更广泛的关注,证明了与TR相比,RLR的优越性能。
-
Segmentation Experiment
-
选择两个公开可用的数据集来进行关于分割任务的实验。第一个数据集是 Supervisely Person dataset ,其包含5711个图像和6884个用于人类语义分割的高质量注释人类实例,例如参见图17。
-
-
图17。通过应用RLR、TR、RCR、RRR、RWR和RNR增强技术获得的受监管人数据集样本。第一行和第二行分别是具有相应人体分割的增强样本。
-
-
第二个数据集是细胞核图像数据集,其包含670个显微图像及其相应的分割掩模,参见例如图18。每个扩充副本的大小是其对应的原始数据集的两倍。然后,每个数据集副本被分成训练(90%的数据)和验证(10%的数据)子集。注意,在这个实验中,我们还考虑了等方差的概念。等方差意味着输出与输入成比例变化。等方差的概念在分割中很重要,其中对象的位置和被分割对象的位置成比例地移动,例如,参见图17和18。相反,不变性指的是对象位置的变化,而输出保持不变,这在第6.1节分类任务中被考虑。
-
-
图18。通过应用RLR、TR、RCR、RRR、RWR和RNR增强技术获得的细胞核图像数据集样本。第一行和第二行分别是具有相应分段的扩充样本。
-
-
使用两个自动编码器来执行语义分割任务。这两个自动编码器是基于两种模型(即MobileNet和VGG16)构建的,每种模型都有一个定制的解码器,详细架构见表5。每个自动编码器总共要进行七次测试。他们用亚当优化器和二元交叉熵损失函数训练了200个时期。
-
-
表5。基于MobileNet和基于VGG16的自动编码器的解码器架构。Conv2D和Conv2DT分别表示2D卷积层和转置2D卷积层。
-
-
表 6 给出了使用TR、RCR、RLR、RNR、RWR和RRR数据增强技术的自动编码器(即基于MobileNet的和基于VGG16的)在被监管人数据集上的分割精度,包括与基线结果(即在没有使用数据增强的情况下在原始样本上获得的结果)的比较。与分类结果相反,表6中的结果表明,所有测试的增强技术都没有改善分割性能。这可能意味着单独使用旋转来扩充数据可能不是分割任务的好方法,特别是如果形状特征是数据集中最重要的特征,如在被监管人数据集中。为了进一步研究不同特征对增强技术性能的影响,我们使用细胞核图像数据集进行了一项实验。
-
-
表6。不同数据增强技术(即TR、RCR、RLR、RNR、RWR和RRR)之间的分段准确性比较。基于MobileNet和基于VGG16的自动编码器被应用于被监管人数据集。结果表明,在这种情况下,仅使用旋转来扩充数据可能不利于分割任务。
-
-
与表6中在监管人员数据集上获得的结果不同,表7中在细胞核图像数据集上的结果表明旋转增强方法可以提高分割性能。这种性能增益可能是由于增强技术没有使细胞核数据集中的图像质量降级太多,因为与受监管的人数据集相比,形状特征不是那么关键。在细胞核图像数据集中,颜色和纹理可能比形状特征更重要。特别地,在Nuclei数据集上的表7中的分割结果显示,RLR在旋转增强方法中实现了最佳性能。这可能是由于RLR提供的信息保存能力,而RRR、RWR和RNR要么丢失了图像边缘的部分信息,要么重复了图像的某些部分,见图19。
-
-
图19。不同旋转方法对旋转后图像的影响。RRR和RWR通过重复其部分来扩展中心区域(即黑条)。RNR导致图像边缘的图像内容丢失,并创建人工像素值来填补空白。相比之下,RLR处理了图像的内容,同时很好地保留了图像周围的信息。
-
Discussion
- 绝大多数研究人员结合多种数据增强技术来获得最终结果。这使得很难对这些技术单独进行准确的评估。在这项研究中,我们选择了随机旋转技术,并对其进行了更详细的研究,以及其对两个重要任务(即分类和分割)的影响,以便对数据增强机制做出总体贡献。细分和分类是两个不同的任务。认为两者都依赖于相同的特征来获得他们想要的结果的想法可能是不准确的。我们在前面部分的结果表明,旋转增强技术可以提高方法的分类任务的性能,但不能提高分割任务的性能。据观察,分割任务自然依赖于形状特征。Geirhos等人进行了一项定量实验,证明用ImageNet训练的CNN有很强的倾向于对纹理而不是形状进行分类。当应用旋转增强技术时,这种特征差异可以解释分类和分割结果之间的差异。特别是,在分割实验中,RLR方法扭曲人体形状最多,产生的结果比TR方法稍差,TR方法没有扭曲人体形状。当应用旋转增强技术时,形状特征的失真可以解释分割结果的恶化。相反,对于分类任务,旋转增强技术改变了对象形状,但没有改变整体纹理,这有利于分类任务的性能增强。
Conclusions
- 深度学习模型,像CNN,容易过度拟合。在这项工作中,我们调查了数据增强技术,特别是最近在采用数据增强技术的图像分类和分割方面的研究,这些技术对于深度学习模型克服过拟合问题并实现更好的性能至关重要。此外,我们提出了一种几何增强技术,即RLR(随机局部旋转),专注于操纵图像中的局部信息,而不增加非原始像素值。定量和定性实验结果表明,在分类和一些分割任务中,RLR可以比传统的旋转技术更有效,因此,很好地补充了现有的数据增强技术。