有效数据包含外部数据_基于多域学习 GAN 的有效数据扩增

a7901ce4b8315befbd55b0c28a0068b3.png

摘要

对于深度学习应用程序而言,海量数据开发(例如收集,标记)是构建实际应用程序中必不可少的过程,尽管其会导致高昂的成本。在这项工作中,我们提出了一种有效的基于生成对抗网络(GAN)的数据增强方法,称为域融合。我们的关键思想是通过使用多域学习 GAN 将外部数据集中包含的知识导入目标模型。多域学习 GAN 同时学习外部数据集和目标数据集,并为目标任务生成新样本。同时的学习过程使 GAN 能够以高保真度和多样性生成目标样本。结果,即使我们只有极少量的目标数据集,我们也可以通过使用这些生成的样本来获得目标任务的准确模型。我们在 3 个目标数据集(CIFAR-100,FGVC-Aircraft 和室内场景识别)的图像分类任务中实验性地评估了 Domain Fusion 的优势。在每个目标数据集上进行训练后,将样本减少到 5,000 张图像,与使用微调 GAN 进行数据增强相比,Domain Fusion 可以实现更好的分类精度。此外,我们证明了 Domain Fusion 可提高生成样本的质量,并且这些改进可有助于提高准确性。

1 介绍

深度学习模型使用计算机视觉(Real 等人 2019),语音识别(Zeyer 等人 2018)和自然语言处理(Vaswani)等高维数据在各种任务中展示了惊人的潜力。这些模型通过对标记数据进行训练来优化其数百万个参数,从而实现了高性能。由于模型由于参数巨大而容易过拟合小数据,因此泛化性能倾向于与标记数据的大小成比例。实际上,Sun 等人(2017)实验表明,标记数据大小可以对数提高视觉任务的测试性能。为了获得更高的深度模型性能,我们必须通过收集数据和附加标签来开发尽可能多的标签数据。但是,开发标签数据成为整个深度模型部署的主要障碍之一,因为这需要大量时间和高成本。

减轻标记数据开发成本的最常见技术之一是数据增强(DA)。为了提高目标任务的性能(例如分类或回归),DA 通过添加小的变换(例如随机扩展,翻转和旋转)来放大现有标记数据(目标数据)的变化。由于 DA 尽管简单但仍能提高性能,并且对网络体系结构没有依赖性,所以它已广泛应用于许多应用程序(Krizhevsky,Sutskever 和 Hinton 2012; Ko 等人,2015)。但是,当我们在小批量数据集上训练目标模型时,DA 的改进是有限的,因为 DA 旨在将现有样本转换为稍有修改的样本。换句话说,DA 不会生成真正的看不见的数据,这些数据中不包含要转换的数据。例如,在图像识别中,DA 无法将奔马图像转换为坐马图像。因此,当我们只有少量数据集时,DA 的潜力是有限的。

为了克服 DA 的局限性。GANs,Goodfellow 等人(2014)提出生成对抗网络。 GAN 通过学习数据分布来生成各种现实的数据样本;他们可以从学习到的分布中生成看不见的样本。现有方法利用了这种能力,并将生成的样本用作目标任务的附加输入。尽管这些基于 GAN 的方法成功地提高了目标性能,但它们假定有足够的数据量来训练 GAN。实际上,在数据量较小的情况下,生成的样本保真度和多样性较低,并且可能降低目标性能(Wang 等人 2018; Shmelkov,Schmid 和 Alahari 2018)。这是因为少量数据缺乏足够的知识,因此,我们需要利用补充知识来训练 GAN。为了用小批量目标数据训练 GAN,Wang 等人(2018)提出了将 GAN 纳入微调技术的 Transfering GAN(TGAN)。但是,Wang 等实验表明,当我们只有 1 K 个目标数据集时,TGAN 不能很好地改善发电性能。

在本文中,我们提出了域融合(DF),这是一种有效的数据增强技术,它利用了在目标和另一个数据集上训练的 GAN。为了生成有用的样本,DF 将来自外部域的知识(即目标的另一个域)整合到 GAN 中。具体来说,我们同时在目标和外部数据集上训练 GAN,这与 TGAN 不同。训练 GAN 后,我们将目标域中生成的样本用于目标任务。为了显式生成目标样本,我们采用条件 GAN,可以通过分配类别标签来生成条件样本。结果,DF 通过 GAN 的共享参数将外部域的有用知识迁移到生成的目标样本中。我们将这种训练方法称为多域训练,将训练后的 GAN 称为多域学习 GAN。

此外,为了提高所生成样本的质量,我们提出了 DF 的两种改进技术。首先,我们引入一个度量标准来选择一个外部数据集,该数据集包含用于生成更多有用目标样本的知识。由于 DF 的性能取决于选择,因此需要为目标域选择适当的外部数据集。为此,我们基于 Fr'echet 起始距离(FID,Heusel 等人(2017))和多尺度结构相似性(MS-SSIM,Wang,Simoncelli 和 Bovik(2003))开发了一种新的度量标准目标和外部领域之间的相关性,以及外部样本的多样性。其次,当从 GAN 生成样本时,我们会进行过滤以去除可能导致对目标模型产生负面影响的极端破损的样本。为此,我们使用鉴别器排斥采样(DRS,Azadi et al。(2019)),该方法使用 GAN 鉴别器的信息来省略不良样本。我们扩展了用于条件 GAN 的 DRS 算法,以生成高质量的类条件样本。应用这些改进,我们可以生成更多有用的目标样本。

我们的实验结果表明,与 TGAN 相比,来自 DF 中 GAN 的样本在低数据范围内可提高准确性。此外,我们证明,就 FID 和初始得分而言,我们的 GAN 可以比 TGAN 生成更高质量的样本。我们还实验性地确认了所生成样本的质量与分类准确性之间的相关性。更重要的是,我们显示了通过 DF 和常规 DA 组合训练的分类器优于仅使用常规 DA 训练的分类器。

我们的主要贡献如下:

•我们提出了一种新的使用 GAN 的数据增强方法,称为“域融合”,该方法通过使用通过共享参数在多域上训练的 GAN,将外部数据集的知识转移到目标模型中。 我们还提出了用于外部数据集选择的度量标准,以及为过滤生成的样本而修改的 DRS。

•我们确认在小数据量条件下的 CIFAR-100,FGVC 飞机和室内场景识别实验中,所生成样本的质量与目标任务性能之间的相关性。 这些结果表明,由于生成了高质量的样本,因此 Domain Fusion 可以改善目标模型。

2 背景资料

生成对抗网络

0275f99cb4424278bf2c20c56bf8a4c3.png
af54795398381e450f00e3817dc67eee.png

通过对 G 和 D 的串联训练,D 学会最大化将“真实”标签分配给真实示例的概率,而 G 学会最大化 D 失败区分的概率。当 G 和 D 收敛到平衡时 在这一点上,生成器网络 G 生成真实样本作为数据分布 pdata 的良好表示。<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值