每天一篇小文章---基于图像的数据增强方法发展现状综述

最新推荐文章于 2024-05-21 22:44:12 发布

liu_xfx

最新推荐文章于 2024-05-21 22:44:12 发布

阅读量940

点赞数 1

分类专栏：每天一篇小文章文章标签： python 深度学习人工智能生成对抗网络

原文链接：https://www.hanspub.org/journal/paperinformation.aspx?paperid=40410#f1

版权

每天一篇小文章专栏收录该内容

7 篇文章 1 订阅

订阅专栏

数据增强，也叫数据增广。数据增强方法的本质实际上是在现有的有限数据的基础上，在不实际收集更多数据的前提下，而让数据产生等价于更大数据量的价值，即根据现有数据样本按照规则生成增量数据的过程。数据增强方法不仅是数据样本量的增多，更多的是数据本身特征的“增强”。
增强方法的使用方式主要被分为两种：离线增强和在线增强。离线增强是指对数据集执行一次性转换，该操作可成倍增加数据样本的数量。使用数据增强方法产生的样本数量为增强因子数与原始数据样本量的乘积。离线增强由于一次性处理全部数据集，因此适用于较小的数据集。在线增强使在获取批量的数据后就对其进行数据增强操作，随后增强后的数据就被送入机器学习模型进行训练，由于其批量处理的特性，因此一般适用于大数据集。
传统的图像数据增强方法，通常使用图像处理技术来完成数据集的扩充和图像质量优化，大致分为几何变换、色彩变换、像素变换三大类。
1. 几何变换：图像翻转与旋转，图像剪裁与缩放，图像移位与边缘填充
2. 色彩变换： 色彩通道上进行图像亮度调节以及色度调节（1) 通过RGB通道的变化和叠加得到不同颜色的RGB色彩空间；2) YUV色彩空间，其中Y表示亮度，UV表示色度；3) HSV颜色模型，H表示色调，S表示饱和度，V表示明暗程度。）
3. 像素变换：噪声（随机叠加像素点或像素块，常见的噪声有：椒盐噪声、高斯噪声、Coarse Dropout、Simplex Noise Alpha、Frequency Noise Alpha），模糊（卷积操作，常用的方法是高斯模糊），图像融合（通过求两张图像的像素值的均值将两张图片混合在一起，或者是随机裁剪图像并将裁剪后的图像拼接在一起形成新图像，常见方法：SMOTE--将提取的图像特征映射到特征空间，确定好采样倍率后，选取几个最相邻的样本，从中随机选取一个连线，并在连线上随机选取一点作为新样本点，重复至样本均衡，MIXUP--从训练数据中随机抽取两条数据将抽取到的图像数据的像素值进行符合Beat分布的融合比例的线性加权求和，同时将样本对应的One-hot向量标签也对应加权求和，预测生成的新样本与加权求和后的标签的损失，进行反向求导并更新参数，同时抽取批量数据并进行随机打散后进行加权求和，CUTMIX--随机擦除用一块矩形掩码覆盖原始图像，Sample Pairing--训练集中随机抽取两张图片并分别进行基础数据增强操作(如随机翻转等)处理后，再经像素取平均值，最后叠加合成一个新的样本），信息删除（常用方法：随机删除--通过随机选取图像中的矩形区域，并使用随机像素值对其遮盖，CUTOUT--使用一定大小的正方形path进行0-mask剪裁，GRIDMASK--其本质是对图像进行网格覆盖）
基于深度学习的数据增强方法
1. 自动数据增强：从数据自身的特点出发，搜索适合不同特点数据集的数据增强策略
  1. AutoAugment：该方法通过创建一个搜索空间用来保存数据增强策略，并针对不同的批量任务根据搜索算法从搜索空间中选择合适的子策略，选择的子策略能够应用特定的图像处理函数进行数据增强的操作，以使这样训练出的神经网络能获得最佳的验证准确率。
  2. RandAugmentation：将数据增强的过程与深度学习模型的训练过程集成起来，而不是将数据增强作为独立的任务；
  3. Population Based Augmentation和Fast AutoAugment 等方法优化计算速度；
2. 基于生成对抗网络的数据增强方法：生成新的训练数据来扩充模型的训练样本
  1. DCGAN：Deep Convolutional GANs，该算法的核心部分是对CNN架构进行了三处修改：(1) 使用卷积层替代了池化层。作者在GAN中的生成器中进行了此类修改，使得生成器能够学习其自身空间的下采样方式，而不是参数指定的下采样方式。(2) 消除了卷积特征上的全连接层。作者尝试将最高卷积特征分别直接连接到生成器和判别器的输入和输出。(3) 批量归一化，使用批量标准化通过将输入标准化以使零均值和单位方差为零来稳定学习，并且能够有效解决深度生成器的所有样本坍塌到单点的问题。
  2. CycleGAN：图像转换领域的重要模型，例如将一个名人转换成一个卡通人物，这种图像转换的使用能够对样本数据进行极大的扩充而保留原始图像的轮廓。
    
    CycleGAN结构：(a) 该模型由两个映射函数组成 G:X→YG:X→Y 和 F:Y→XF:Y→X，并包括两个对抗判别器DY和DX，DY鼓励G将X转换为与Y无法区分的输出，DX则鼓励F将Y转换为与X无法区分的输出。为了进一步的将映射规范化，该模型定义了两个“循环一致性损失”，这两个损失函数保证了将一个域转换为另一个域并再次转换回来的时候，与原始的域尽可能保持一致。(b) 前向循环一致性损失： x→G(x)→F(G(x))≈xx→G(x)→F(G(x))≈x，(c) 反向循环一致性损失 y→F(y)→G(F(y))≈y
  3. Conditional GANs：根据附加信息对模型框架进行调整，可以用于指导数据的生成过程，这种根据条件生成数据的方式对于数据增强非常有效；
3. 基于自动编码器和生成对抗网络组合的数据增强方法
  1. 自动编码： 自动编码器通过将其网络结构的一半用于编码，获得图像的低维向量表示，将网络结构的另一半用于解码，获得根据低维向量表示重新构造的图像数据，这种编码解码的方式能够实现训练数据样本和噪声数据样本的容量扩充；
  2. CVAE-GAN： 首先使用编码器将给定的训练图像数据和类别标签编码为符合给定概率分布的隐变量，再通过生成器将从隐变量中采样得到的数据和对应的类别标签生成图像数据，将该图像数据输入到分类器和判别器中从而输入分类标签和判别标签，生成器和判别器构成了一个生成对抗网络，其中生成器尝试通过已经学会了区分真实样本和虚假样本的判别器提供的的梯度来学习真实数据分布。
  3. cascaded refinement networks， CRN：该模型将图像生成任务转化为回归问题，该模型还证明了可以通过合适结构的前馈网络合成图像数据，实现了将图片无缝缩放到高分辨率

liu_xfx

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
每天一篇小文章---基于图像的数据增强方法发展现状综述

原文链接：https://www.hanspub.org/journal/paperinformation.aspx?paperid=40410#f1数据增强，也叫数据增广。数据增强方法的本质实际上是在现有的有限数据的基础上，在不实际收集更多数据的前提下，而让数据产生等价于更大数据量的价值，即根据现有数据样本按照规则生成增量数据的过程。数据增强方法不仅是数据样本量的增多，更多的是数据本身特征的“增强”。增强方法的使用方式主要被分为两种：离线增强和在线增强。离线增强是指对数据集执行一次性转换，该操作可
复制链接

扫一扫