数据增强——SamplePairing

本文介绍了一种名为SamplePairing的数据增强技术,该技术通过将训练集中的两个图像叠加并取平均值来创建新的样本,同时保留其中一个图像的标签。这种方法能够显著提高模型的准确性,尤其是在训练数据有限的情况下。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

######《Data Augmentation by Pairing Samples for Images Classification》

  • 2018,IBM,SamplePairing

主要研究数据增强。核心思想是从训练集随机抽取的两幅图像叠加合成一个新的样本(像素取平均值),使用第一幅图像的label作为合成图像的正确label
数据增强是机器学习任务中广泛使用的技术,如图像处理领域,人工标注数据成本昂贵,而 CNN 的训练有需要大量标注数据避免过拟合。图像处理领域常用的数据增强技术有旋转、平移、镜像、失真、添加少量噪音、随机裁剪,添加光照和对比度等。

本文提出了一种高效数据增强方式 SamplePairing,可以使训练集规模从 N 扩增到 N*N。
论文在使用 GoogLeNet,在 ILSVRC 2012 数据集从 top-1 错误率从 33.5% 降低到 29%,在 CIFAR-10 数据集 top-1 错误率从 8.22% 降低到 6.93%。对于训练集有限的任务而言,提高了模型的准确性,效果很明显,eg:在医学图像任务。

模型结构:
这里写图片描述
**实现过程:**训练图像 A 是随机的,从训练集随机抓取图像 B,(A 和 B 都是 ILSVRC2012 的图像,分辨率 256x256)两者都经过基本的数据增强(镜像,随机裁剪),分辨率变为 224x224,对两幅图像求平均值,但是 label采用的是 A,之后送入 GoogLeNet 模型。因此,SamplePairing 随机从图像集中创建新的图像,而且 label B 未使用。
问题:因为图像A和B在合成的图像中具有相等的权重,一个分类器并不能正确的预测出label A,除非A和B具有同样的label。因此训练误差也不能变成 0,即使使用大型网络,
训练精度平均不能超过 50%。对于 N 分类器,最大训练精度是 0.5+1/(Nx2)。
尽管 SamplePairing 的训练精度不会很高,当停止 SamplePairing 作为最终微调时的训练,训练精度和验证精度很快改善。
经过微调模型,使用 SamplePairing 训练的网络比未使用 SamplePairing 训练的模型都高很多。论文认为使用 SamplePairing 是一种正则化。

论文的训练过程如下:

  1. 先不使用 SamplePairing 数据增强训练,而是先使用传统的数据增强训练网络。
  2. 完成一个 epoch(ILSVRC)或者 100 个 epoch(其他数据集),加入 SamplePairing 数据增强。
  3. 间歇性禁止 SamplePairing。对于 ILSVRC 数据集,为 300,000 个图像启用 SamplePairing,然后为下一个 100,000 个图像禁用它。对于其他数据集,启用 8 个 epoch,在接下来的 2 个 epoch 禁止 SamplePairing。
  4. 在训练损失函数和精度稳定后,禁止 SamplePairing 作为微调。

实验:
论文的模型在多个数据集进行验证:ILSVRC 2012,CIFAR-10,CIFAR-100,以及 Street View House Numbers (SVHN) datasets。
这里写图片描述
如上表中所示 training error 会增加,而 validation error 会减小,说明正则化效果明显。

在 CIFAR 训练集减少样本个数,训练和验证误差结果:

当使用两类的label和随机权重的测试结果:


注:博众家之所长,集群英之荟萃。

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Peanut_范

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值