基于图像的数据增强方法发展现状综述
人工智能技术与咨询 2022-03-22 20:57
点击蓝字 · 关注我们
来源:《 计算机科学与应用》 ,作者冯晓硕等
关键词: 数据增强;图像数据集;图像处理;深度学习
摘要:
摘要: 现阶段,基于深度学习的图像处理和识别技术已经发展的十分成熟,但在某些图像识别任务中由于深度学习技术的特点,一些深度神经网络模型层数较多导致的学习能力较强,将图像数据样本中的特征学习的过于充分,使得神经网络模型在训练数据上出现过拟合现象。同时,基于深度学习的图像处理算法训练的模型的好坏与数据集的质量、规模息息相关,但由于客观原因存在获得的图像数据集小、图像质量差,样本分布不均衡等现象。针对上述问题,研究人员提出通过使用图像数据增强技术实现对模型的输入数据的规模、质量和分布情况进行优化,将数据增强后的数据集用于深度学习模型将有效降低出现过拟合现象的概率。本文的主要工作是对现有的图像数据增强技术进行讨论,从传统图像处理方法和基于深度学习数据增强方法两方面进行梳理总结,其中传统图像处理方法有几何变换、颜色变换和像素变换;基于机器学习的图像数据增强方法有自动数据增强方法、基于生成对抗网络数据增强方法和基于自动编码器和生成对抗网络组合的数据增强方法。本文着重对图像融合、信息删除以及基于生成对抗网络的图像数据增强方法等技术进行介绍,并且对文中提出的数据增强方法的思想及其优缺点进行讨论,为研究人员在不同图像任务中利用对应的数据增强方法来优化数据集从而提高模型准确率提供研究思路。
1. 引言
随着人工智能技术的不断发展,基于深度学习的图像处理技术愈发成熟,应用也越来越广泛。由数据集驱动的人工智能技术训练的模型往往需要巨大规模的数据集,但由于时间成本和金钱成本的限制,可能常会遇到图像数量少、图像质量差和类别不均衡 [1] 的情形,这给图像识别任务带来种种困难,数据集中图像的质量和数量极大的影响了深度学习模型的泛化能力。由于深度学习网络模型有着极强的学习能力,模型可能经常会将图像数据集上数据的一般特征提取出来作为预测某一类结果的特性,这往往会导致模型在训练集上会预测出很好的结果,而在测试集以及验证集上的有较高的错误率,模型的泛化能力低 [2]。
基于图像的数据增强能够增加训练样本的多样性,如通过翻转、添加噪声等基础图像处理操作或根据现有数据生成新的样本进行数据集扩充、数据质量的增强。使用数据增强方法后的数据集训练模型,以达到提升模型的稳健性、泛化能力的效果。
本文主要研究了基于图像的数据增强技术,并对其进行归类整理,着重介绍各类技术的特点及其解决的问题,对其存在的不足进行分析。对图像数据增强技术待解决问题进行总结,为相关研究人员提供详尽的技术发展状况报告。
2. 图像数据增强概述
2.1. 数据增强
数据增强,也叫数据增广。数据增强方法的本质实际上是在现有的有限数据的基础上,在不实际收集更多数据的前提下,而让数据产生等价于更大数据量的价值,即根据现有数据样本按照规则生成增量数据的过程。数据增强方法不仅是数据样本量的增多,更多的是数据本身特征的“增强”。样本数据是整体数据的抽样,当样本数据量足够大时,样本的分布情况和总体的分布情况应相似。但由于客观原因收集的样本数据不够完整,这时则可通过数据增强方法生成与真实数据分布更加相似的新样本的数据;深度学习网络模型拥有极强的学习能力,因此学习到的一些无用的信息特征对最终的结果会产生负面影响,而数据增强技术可实现按照需求针对数据施加约束来增加先验知识的前置过程,如将一些信息删除或补全,来减少负面影响对处理图像任务的模型性能的影响。
现阶段数据增强方法的使用方式主要被分为两种:离线增强和在线增强。离线增强是指对数据集执行一次性转换,该操作可成倍增加数据样本的数量。使用数据增强方法产生的样本数量为增强因子数与原始数据样本量的乘积。离线增强由于一次性处理全部数据集,因此适用于较小的数据集。在线增强使在获取批量的数据后就对其进行数据增强操作,随后增强后的数据就被送入机器学习模型进行训练,由于其批量处理的特性,因此一般适用于大数据集。
2.2. 基于图像的数据增强的分类
数据增强方法主要有作用于图像的和作用于文本的两类,本文主要介绍基于图像的数据增强方法 [3],根据是否使用机器学习技术,其被分为两个部分进行讨论:基于传统图像处理技术的图像数据增强和基于机器学习的图像数据增强技术,其中基于传统图像处理技术的图像数据增强中将介绍针对图像数据本身的几何变换、色彩变换和像素变换。基于机器学习的图像数据增强技术将介绍自动数据增强技术、基于生成对抗网络数据增强技术和基于自动编码器和生成对抗网络组合的数据增强方法,这些方法都是使用机器学习相关理论实现的图像生成、图像转换模型。本文对于现有的图像数据增强方法分类如图1。
3. 传统的图像数据增强方法
传统的图像数据增强方法,通常使用图像处理技术 [4] 来完成数据集的扩充和图像质量优化,大致分为几何变换、色彩变换、像素变换三大类。
3.1. 几何变换
针对数据集进行空间几何变换,常常会存在改变图像原始的标签信息或者增加一些不相关数据的情况,这称之为不安全的转换。例如对文字的识别任务中,对图像进行翻转操作是没有意义的。但对于存在位置偏差的数据集,用几何变换技术可以很好解决问题。但在真实情况下,训练集与测试集的数据的差异十分复杂,除了移位旋转等操作外,还包括其他复杂变换。因此几何变换的应用范围相对有限。
<