摘要
背景:
充足的训练数据不仅可以缓解模型在训练时的过拟合问题,而且可以进一步扩大参数搜索空间,帮助模型进一步朝着全局最优解优化。
然而,在许多领域或任务中,获取到充足训练样本的难度和代价非常高。因此,数据增广成为一种常用的增加训练样本的手段。
本文贡献:
按照方法本质原理的不同,将其分为单数据变形、多数据混合、学习数据分布和学习增广策略等 4 类方法。
单数据变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等 5 种;
多数据混合可按照图像维度的混合和特征空间下的混合进行划分;
学习数据分布的方法主要基于生成对抗网络和图像风格迁移的应用进行划分;
学习增广策略的典型方法可以按照基于元学习和基于强化学习进行分类
前景:
根据数据和任务
基于强化学习探索最优的组合策略,
基于元学习自适应地学习最优数据变形和混合方式,
基于生成对抗网络进一步拟合真实数据分布以采样高质量的未知数据,
基于风格迁移探索多模态数据互相转换的应用
0. 引言
在许多研究领域,受限于数据获取难度大、标注成本高等原因,往往难以获得充足的训练数据,这样训练得到的深度学习模型往往存在过拟合的问题,进而导致模型泛化能力差、测试精度不高等,难以满足应用需求。
数据增广,又称数据增强( data augmentation) , 是一种增加有限数据的数量和多样性的策略,旨在从有限的数据中提炼出更多有用的信息,产生等价于更多数据的价值。数据增广方法试图从过拟合问题的根源———训练样本不足,去解决该问题。
数据增广可以分为数据变形 (data warping) 和 数据过采样 ( oversampling)两种方法。
数据变形类:LeNet-5、AlexNet、VGGNet、GoogleNet、ResNet、DenseNet中都有用到。
多幅图像信息混合:SamplePairing 、mixup、SMOTE等,这类方法本质上属于数据过采样。
GAN:Frid-Adar 等
元学习和强化学习的思想:训练一个模型去自适应地选用最优的数据增广策略,来实现模型性能提升的最大化。AutoAugment 和 RandAugment
本文从另外的角度,即从数据增广的生成方式综述,将数据扩增方法分为单数据变形、 多数据混合、学习数据分布规律生成新数据和学习增广策略等 4 类方法。
1. 单数据变形
1.1 几何变换
- 几何变换 ( geometric transformations)是最常见的图像数据增广方法,通过旋转、镜像、平移、裁剪、 缩放和扭曲等变换方式生成新样本。
- 在实际任务中,需要根据数据的特点选择合适 的几何变换方法才能进一步带来模型性能的提升, 否则可能适得其反。
- 虽然几何变换的方式简单易操作,但也存在对数据重复记忆、增加的信息量有限等缺点,这