ECCV2020 Learning Data Augmentation Strategies for Object Detection

最新推荐文章于 2023-12-27 13:44:05 发布

Laughing-q

最新推荐文章于 2023-12-27 13:44:05 发布

阅读量1.2k

点赞数 2

分类专栏：论文阅读文章标签：计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/Q1u1NG/article/details/109602751

版权

论文阅读专栏收录该内容

29 篇文章 10 订阅

订阅专栏

ECCV2020 Learning Data Augmentation Strategies for Object Detection论文翻译

论文地址：Learning Data Augmentation Strategies for Object Detection

摘要

数据增强是训练深度神经网络的重要组成部分。虽然数据增强能够显著提升图像分类的效果，但它的潜力还没有被彻底的研究对象检测。考虑到为目标检测注释图像的额外成本，数据增强可能对这个计算机视觉任务更重要。在这项工作中，我们研究了数据增强对目标检测的影响。我们首先证明了从图像分类中借鉴的数据增强操作可能有助于训练检测模型，但改进有限。因此，我们研究如何学习，专门的数据增强策略提高检测模型的泛化性能。重要的是，这些增强策略只影响训练，并在评估期间保持训练模型不变。在COCO数据集上的实验表明，优化后的数据增强策略可以提高检测精度超过+2.3 mAP，并且允许单模型推理模型达到SOTA的50.7 mAP的精度。重要的是，在COCO上发现的最佳策略可以不变地转移到其他检测数据集和模型上，以提高预测精度。比如说，使用coco的最佳增强策略将PASCAL-VOC的强基线提高了+2.7mAP。我们的结果还显示，一个学习的增强策略是优于最先进的体系结构正则化方法，即使在考虑强基线。
在这里插入图片描述

1.介绍

深层神经网络是一种强大的机器学习系统，当对大量的数据进行训练时效果最好。为了增加大量的训练数据，大量的工作致力于找到更好的数据增强策略 [3, 42, 21]。在图像领域，常见的增强包括将图像平移几个像素，或水平翻转图像。大多数现代图像分类器都使用手工制作的数据增强策略[21,44,16,18,56]。
最近的研究表明，与手工设计数据增强策略不同，从数据中学习最优策略可以显著提高图像分类模型的泛化性能[22,45,8,33,31,54,2,43,37,5]。对于图像分类模型，数据可以通过学习一个可以从头创建数据的生成器[33,31,54,2,43]，或者通过学习一组用于已存在的训练集样本的变换[5,37]来扩充。对于目标检测模型来说，由于采集带标记数据进行检测的成本较高，且普通检测数据集的样本比图像分类数据集要少得多，因此对数据扩充的需求就显得尤为重要。然而，如何扩充数据还不清楚:是否应该直接重用图像分类中的数据扩充策略? 对于边框和边框的内容，我们应该怎么做？
在这项工作中，我们创建了一组简单的转换，可以应用于对象检测数据集，然后将这些转换转换到其他检测数据集和网络结构。这些转换只在训练的时候用，测试的时候不用。我们转换包括那些可以应用于整个图像而不影响边界框的位置(如来自图像分类模型的颜色转换), 影响整体形象的转换而改变边界框的位置(例如,平移或整幅图像的剪切), 和只是应用于对象边界框内的转换。随着转换的数量越来越大，手动有效地组合它们就变得非常重要。因此，我们搜索专为目标检测数据集设计的策略。实验表明，该方法在数据集、数据集大小、网络骨干架构和检测算法等方面都有很好的性能。此外，我们还研究了数据增强策略的性能如何依赖于搜索空间中包含的操作数量，以及增强技术的有效性如何随着数据集大小的变化而变化。
综上所述，我们的主要贡献如下：

设计并实现一种搜索方法，通过结合特定于边界框标注的新操作，结合并优化对象检测问题的数据增强策略。
在一系列检测体系结构和数据集的交叉验证精度上取得一致的进展，特别是，我们在单模型模型上超越了coco数据集的SOTA结果，并在PASCAL VOC对象检测实现了具有竞争力的结果。
通过提供强大的正则化来避免对小对象的过度拟合，强调如何学习数据增强策略对小数据集特别有利。

2.相关工作

视觉模型的数据增强策略通常是特定的数据集，甚至是特定的机器学习架构。例如，在MNIST上训练的最先进的模型使用灵活的变形来影响比例、平移和旋转[42,4,47,40]。随机裁剪和图像镜像是在自然图像上训练的分类模型中常用的方法[51,21]。在用于目标检测的数据增强策略中，使用最广泛的是图片镜像和多尺度训练。以对象为中心的裁剪是一种流行的增强方法[27]。
除了聚焦于图像的一部分进行裁剪，一些方法随机抹去或者添加图片块噪声来提高准确率[9, 53, 13]和鲁棒性[50, 12], 或者两者都提高[29]。同样，[48]为每个对象学习一个遮挡模式，以创建敌对的示例。除了剪切和擦除，[10]还通过剪切和粘贴的方式在训练图像上添加新的对象。
为了避免数据增强的数据特性，最近的工作集中于直接从数据本身学习数据增强策略。例如，Smart Augmentation[22]使用一个网络，通过合并来自同一个类的两个或多个样本来生成新数据。Tran等人基于从训练集[45]中学习到的分布，使用贝叶斯方法生成增强数据。DeVries和Taylor在学习的特征空间中使用简单的变换，如噪声、插值和外插来增加数据[8]。Ratner等人使用生成对抗网络来生成数据增强操作[37]序列。最近，有几篇论文使用了带有改进优化算法的自动增广[5]搜索空间，以更有效地查找自动增广策略[17,23]。

虽然上述方法都可以帮助解决分类问题，但我们采用一种自动的方法来寻找用于目标检测的最佳数据增强策略。与分类不同，用于目标检测的标记数据更加稀缺，因为标注检测数据的成本更高。与图像分类相比，由于图像变形、边框位置和检测数据集中目标的大小等因素会带来更多的方法和复杂性，因此开发用于目标检测的数据增强策略更加困难。我们的目标是使用验证集的准确性来帮助搜索新的检测增强程序，使用自定义操作泛化跨数据集、数据集大小、网络主干架构和检测算法。

3.方法

我们将数据增强搜索作为一个离散优化问题，并对泛化性能进行优化。这项工作是对之前[5]工作的扩展，重点关注目标检测的增强策略。目标检测引入了另一个复杂的问题，即保持边框位置与扭曲图像之间的一致性。边界框注释提供了引入惟一作用于每个边界框内内容的增强操作的可能性。 此外，我们还探讨了如何在对图像应用几何变换时改变边框的位置。
我们将增强策略定义为K个子策略的无序集。在训练过程中随机选择K个子策略中的一个，然后应用到当前的图像上。每一个子集包含N个图像转换序列，我们通过创建一个搜索空间，将搜索一个学习的增强策略的问题转化为一个离散优化问题 [5]。搜索空间由K = 5个子策略组成，每个子策略由N = 2个操作组成，按顺序应用于一幅图像。此外，每个操作还与两个超参数关联，这两个超参数指定应用该操作的概率和操作的大小程度。图2(底部文本)演示了5个已学习的子策略，概率参数将随机性的概念引入到增强策略中，选择的增强操作将以指定的概率应用于图像。
在这里插入图片描述
在几个初步的实验中，我们确定了22个搜索空间的操作，似乎有利于目标检测。这些操作是在TensorFlow[1]中实现的。我们简要地总结了这些操作，但将细节保留在附录中：

颜色操作：扭曲颜色通道，不影响边界框的位置(例如，均衡，对比度，亮度)
几何操作：以几何形状扭曲图像，相应地改变边界框标注的位置和大小(例如，旋转Rotate，剪切ShearX，平移TranslationY等)。
边界框的操作：仅扭曲边界框注释中包含的像素内容(例如，BBox均衡(BBox Only Equalize)，BBox旋转(BBox Only Rotate)，BBox翻转(BBox Only FlipLR))。

附上附录：
在这里插入图片描述

注意，对于任何影响图像几何形状的操作，我们同样修改了边界框的大小和位置，以保持一致性。
我们将参数值的自定义范围与每个操作关联，并将该范围映射到从0到10的标准化范围。我们离散的幅度范围成L等间距的值，使这些参数服从离散优化。类似地，我们将一个操作的概率离散到M个等间距值上。在初步的实验中，我们发现设置L = 6和M = 6可以很好地平衡RL算法的计算可操作性和学习性能。因此，寻找一个好的子策略就变成了在一个基数为(22LM)²的离散空间中搜索。特别是，要搜索5个子策略，搜索空间大约包含(22x6x6)^2x5≈ 9.6x10²⁸种可能性，需要一种有效的搜索技术来导航该空间。有许多方法可以解决离散优化问题，包括强化学习[55]，进化方法[38]和基于顺序模型的优化[26]。在这项工作中，我们选择在先前工作的基础上，将离散优化问题构造为RNN的输出空间，并使用强化学习来更新模型[55]的权值。RNN的训练设置类似于[55,56,6,5]。我们采用最近策略优化(PPO)[41]作为搜索算法。RNN展开30步，以预测单个增强策略。展开步骤的数量，30，对应于为了枚举5个子策略而必须做出的离散预测的数量。每个子策略由2个操作组成，每个操作由3个预测组成，对应于所选择的图像变换、应用的概率和变换的大小。
为了训练每个子模型，我们从COCO训练集中选择了5K张图像，因为我们发现直接在完整的COCO数据集上搜索是非常昂贵的。我们发现，使用这个数据子集标识的策略可以泛化到整个数据集，同时可以节省大量的计算量。简单地说，我们使用ResNet-50主干网络[16]和RetinaNet检测器[24]对5K COCO图像从头开始训练每个子模型，使用余弦学习率衰减[30]。控制器的奖励信号是自定义的验证集上的mAP，该验证集包含从COCO训练集的一个子集创建的7392张图像。
RNN控制器被训练超过20K的增强策略。48小时内使用400 TPU s[20]搜索，控制器超参数与[56]相同。利用最近开发的population based training[17]或 density matching[23]的更有效的搜索方法，可以加快搜索速度。学到的策略见附录中的表7。

4.结果

我们在带有RetinaNet[24]的ResNet-50[16]主干的COCO数据集上应用了我们的自动增强方法，以便找到好的增强策略以推广到其他检测数据集。我们使用在COCO上找到的顶级策略，并将其应用到不同的数据集、数据集大小和架构配置上，以检查通用性，以及策略在有限的数据体系中如何发挥作用。

4.1 学习一个数据增强策略

在5K COCO训练图像上搜索学习到的增强策略，我们所有的结果都会用找到的最佳增强策略。经过检查，良好策略中最常用的操作是旋转，旋转整个图像和边框，旋转后，边框会变大，以包括所有旋转的对象。尽管旋转操作有这种效果，但它似乎是非常有益的:它是良好策略中最常用的操作。另外两个常用的操作是Equalize和BBox Only TranslateY。Equalize使像素值的直方图扁平化，并且不修改每个边框的位置或大小。BBox Only TranslateY以相等的概率只转换边界框中垂直向上或向下的对象。

4.2 学习的增强策略系统地改进了目标检测

在不同的骨干架构和检测算法下，我们评估了在竞争性的COCO数据集[25]上的顶层增强策略的质量。我们从使用与[13]相同的训练策略的RetinaNet目标检测器开始。简单来说，我们从头开始训练模型，全局batch-size=64， input-size=640x640，学习率是0.08，权重衰减是1e-4，使用focal loss，α = 0.25γ = 1.5，训练了150个轮次，使用学习率步骤衰减策略，在轮次为120和140的时候乘以0.1。所有模型都在TPUs上训练的。
本节和后续章节中使用的基线RetinaNet架构采用了标准的数据增强技术，这些技术很大程度上适合于图像分类训练[24]。这包括以50%的概率进行水平翻转和多尺度抖动，其中图像在训练期间在512和786之间随机调整大小，然后裁剪为640x640。
使用我们的增强策略对上述过程的结果如表1和表2所示。
在这里插入图片描述
在表1中，学习到的增强策略在多个骨干架构上获得了系统的收益，改进范围从+1.6 mAP到+2.3 mAP。相比之下，之前应用于ResNet-50[13]的最先进的正则化技术获得了+1.7%的mAP(表2)。
为了更好地理解收益来自何处，我们将应用于ResNet50的数据增强策略分解为三个部分:颜色操作、几何操作和只使用边界框的操作(表2)。使用颜色操作只能提高+0.8 mAP的性能。将搜索与几何运算相结合，可以使mAP的性能提高+1.9。最后，在与之前的操作结合使用时，添加特定于边框的操作会产生最好的结果，并提供了比基线+2.3%的mAP改进。值得注意的是，该策略只在5K张coco训练集上搜索出来的，并且还是能够很好的在整个coco数据集上泛化。

4.3 利用学习的增强策略实现最先进的目标检测

一个好的数据扩充策略应该能够在模型之间、数据集之间进行转换，并且能够很好地适用于在不同大小图像上训练的模型。在此，我们在不同的骨干网络架构和检测模型上实验学习到的增强策略。为了测试如何将学到的策略转移到最先进的检测模型，我们用AmoebaNet-D架构[38]替换了ResNet-50主干。检测算法由RetinaNet[24]改为NAS-FPN[14]。此外，我们使用ImageNet对AmoebaNet-D主干进行预训练，因为我们发现，在从零开始训练时，我们无法获得有竞争力的结果。该模型使用学习率为0.08的余弦衰减训练150个epoch。除了图像大小从640x640增加到1280x1280之外，其余的设置与ResNet-50主干模型相同。
在这里插入图片描述
表3表明，学习到的增强策略在一个竞争性的检测体系结构和设置上提高了+1.5%。这些实验还表明，增强策略可以在不同的骨干架构、检测算法、图像大小(即640→1280像素)和训练过程(从头开始训练→使用ImageNet预训练)之间很好地传输。我们可以通过将图像分辨率从1280提高到1536像素，同样的也按照[49]增加了anchor的数量来进一步扩展这些结果。由于这个模型比之前的模型要大得多，我们通过结合搜索中最前面的4个策略来增加学习策略的子策略的数量，从而得到20个学习到的增强子策略。
这些简单修改的结果是第一个one-stage检测系统，在单模型上实现了SOTA的结果，在COCO地图上50.7的mAP。我们注意到，这个结果只需要对图像进行一次扫描，而之前的结果需要在测试时[32]对不同空间尺度下的同一图像进行多次评估。此外，这些结果是通过增加图像分辨率和增加锚点的数量得到的——这两种简单而著名的提高目标检测性能的技术[49,19]。相比之下，以前的最先进的结果依赖于对模型架构和正则化方法进行大致的多次自定义修改，以实现这些结果[32]。我们的方法在很大程度上依赖于一个更现代的网络体系结构和一个学习的数据扩充策略。

4.4学习的增强策略转移到其他检测数据集。

为了评估学习到的策略到一个完全不同的数据集和另一个不同的检测算法的可转移性，我们在PASCAL VOC数据集[11]上训练了一个Faster R-CNN[39]模型，该模型带有ResNet-101主干。我们结合PASCAL VOC 2007和PASCAL VOC 2012的训练集，在PASCAL VOC 2007测试集(4952张图像)上测试我们的模型。我们的评估指标是IoU阈值为0.5 (mAP50)时的平均精度。对于基线模型，我们使用带有默认超参数的Tensorflow对象检测API [19]：使用9个GPU worker进行异步训练，每个worker处理批大小为1。初始学习率设置为3x10^-4, 500K步后衰减0.1。训练从COCO检测模型检查点开始。在使用我们的data augmentation policy进行训练时，我们不改变任何训练细节，只将在COCO上找到的我们的策略添加到预处理中。这使得mAP50的性能提高了2.7%(表4)。
在这里插入图片描述

4.5学习的增强策略模拟更大的注释数据集的性能

在本节中，我们进行了一些实验，以确定在训练数据较多或较少的情况下，学习到的增强策略将如何执行。为了进行这些实验，我们使用COCO数据集的子集来制作数据集包含一下数量的图片：5000、9000、14000、23000(见表5)。在这个实验中，所有的模型都使用带RetinaNet的ResNet-50主干，并且在没有使用ImageNet预训练的情况下训练150 epoch。
如我们所料，当模型在较小的数据集上训练时，由于学习的增强策略所带来的改进更大，如图3和表5所示。我们表明，对于在5000个训练样本上训练的模型，学习的增强策略可以使mAP相对于基线提高70%以上。随着训练集大小的增加，学习的增强策略的效果降低，但仍有显著的改善。有趣的是，使用学习的增强策略训练的模型似乎在检测小目标上做得特别好，特别是当训练数据集中的图像很少的时候。例如，对于小对象，应用学习的增强策略似乎比增加50%的数据集大小要好，如表5所示。对于小物体，使用9000个例子并使用学习的增强策略进行训练，结果比使用15000幅图像时的基线性能更好。在这个场景中，使用我们的增强策略几乎与将数据集大小加倍一样有效。
在这里插入图片描述

另一个有趣的行为是，使用学习增强策略训练的模型在AP75更难的任务上表现得相对更好(平均精度IoU=0.75)。在图4中，我们绘制了使用学习的增强策略训练的模型在mAP、AP50和AP75上的改进百分比(相对于基线增强)。对于所有的训练集大小，AP75的相对改进都大于AP50。学习到的数据增强在AP75上特别有用，这表明增强策略有助于更精确地对齐衣预测边界框。这表明，增强策略尤其有助于学习边界框位置的精细空间细节，这与观察到的小物体的增益是一致的。 在这里插入图片描述

4.6 学习数据的增强改进了模型的正则化

在这一节中，我们研究了学习数据扩充的正则化效果。首先我们注意到，在较大的训练集上训练时，一个检测模型的最终训练损失较低(见图5中的黑色曲线)。当我们应用学习的数据扩充，对所有大小的数据集训练损失显著增加(红色曲线)。通过观察训练模型权重的L2范数，也可以看出正则化效果。在较大数据集上训练的模型，权值的L2范数更小，使用学习增强策略训练的模型的L2范数比使用基线增强策略训练的模型的L2范数更小(见图6)。在这里插入图片描述

5.讨论

在这项工作中，我们研究了一个学习的数据扩充策略在目标检测性能上的应用。我们发现一个学习的数据扩充策略在所有考虑的数据量中都是有效的，当训练集比较小的时候有较大的改进。我们还观察到，由于学习数据增强策略的改进，在检测更小的目标和更精确的检测更困难的任务上更大。
我们还发现，其他成功的正则化技术，当与学习的数据扩充策略一起应用时，是没有好处的。我们用输入Mixup[52]，Manifold Mixup[46]和Dropblock[13]进行了实验。对于所有的方法，我们发现它们既没有帮助也没有损害模型性能。这是一个有趣的结果，因为提出的方法独立地优于这些正则化方法，但当应用学习的数据扩充策略时，显然这些正则化方法不需要。
今后的工作将包括应用这种方法到其他视觉领域。比如说，学习到的增强策略的自然扩展是语义[28]和实例分割[34,7]。同样的，点云特性化[35,36]是另一个具有丰富的几何数据扩充操作可能性的领域，并且可以受益于类似于这里所采用的方法。获取此类任务的训练集示例所需的人工注释代价很高。基于我们的发现，学习的增强策略是可转移的，并且对在有限的训练数据上训练的模型更有效。因此，投资于用于学习数据扩充策略的库可能是获得附加人工注释数据的有效替代方案。

参考文献

[1] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis,
J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, M. Kudlur, J. Levenberg, R. Monga, S. Moore,
D. G. Murray, B. Steiner, P. Tucker, V. Vasudevan,
P. Warden, M. Wicke, Y. Yu, and X. Zheng. Tensorflow: A system for large-scale machine learning. In
Proceedings of the 12th USENIX Conference on Operating Systems Design and Implementation, OSDI’16,
pages 265–283, Berkeley, CA, USA, 2016. USENIX
Association. 4
[2] A. Antoniou, A. Storkey, and H. Edwards. Data
augmentation generative adversarial networks. arXiv
preprint arXiv:1711.04340, 2017. 1
[3] H. S. Baird. Document image defect models. In
Structured Document Image Analysis, pages 546–556.
Springer, 1992. 1
[4] D. Ciregan, U. Meier, and J. Schmidhuber. Multicolumn deep neural networks for image classification. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pages 3642–
3649. IEEE, 2012. 2
[5] E. D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, and
Q. V. Le. Autoaugment: Learning augmentation policies from data. arXiv preprint arXiv:1805.09501,
2018. 1, 2, 4
[6] E. D. Cubuk, B. Zoph, S. S. Schoenholz, and Q. V. Le.
Intriguing properties of adversarial examples. arXiv
preprint arXiv:1711.02846, 2017. 4
[7] J. Dai, K. He, and J. Sun. Instance-aware semantic
segmentation via multi-task network cascades. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, pages 3150–3158, 2016. 8
[8] T. DeVries and G. W. Taylor. Dataset augmentation in
feature space. arXiv preprint arXiv:1702.05538, 2017.
1, 2
[9] T. DeVries and G. W. Taylor. Improved regularization
of convolutional neural networks with cutout. arXiv
preprint arXiv:1708.04552, 2017. 2, 13
[10] D. Dwibedi, I. Misra, and M. Hebert. Cut, paste and
learn: Surprisingly easy synthesis for instance detection. In Proceedings of the IEEE International Conference on Computer Vision, pages 1301–1310, 2017.
2
[11] M. Everingham, L. Van Gool, C. K. Williams, J. Winn,
and A. Zisserman. The pascal visual object classes
(voc) challenge. International journal of computer vision, 88(2):303–338, 2010. 6, 7
[12] N. Ford, J. Gilmer, N. Carlini, and D. Cubuk. Adversarial examples are a natural consequence of test error
in noise. arXiv preprint arXiv:1901.10513, 2019. 2
[13] G. Ghiasi, T.-Y. Lin, and Q. V. Le. DropBlock: A
regularization method for convolutional networks. In
Advances in Neural Information Processing Systems,
pages 10750–10760, 2018. 2, 5, 7
[14] G. Ghiasi, T.-Y. Lin, R. Pang, and Q. V. Le. NAS-FPN:
Learning scalable feature pyramid architecture for object detection. In The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), June 2019. 5,7
[15] R. Girshick, I. Radosavovic, G. Gkioxari, P. Dollar, ´
and K. He. Detectron, 2018. 2
[16] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of
the IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pages 770–778, 2016. 1, 4
[17] D. Ho, E. Liang, I. Stoica, P. Abbeel, and X. Chen.
Population based augmentation: Efficient learning
of augmentation policy schedules. arXiv preprint
arXiv:1905.05393, 2019. 2, 4
[18] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation
networks. arXiv preprint arXiv:1709.01507, 2017. 1
[19] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara,
A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern
convolutional object detectors. In Proceedings of
the IEEE conference on computer vision and pattern
recognition, pages 7310–7311, 2017. 6
[20] N. P. Jouppi, C. Young, N. Patil, D. Patterson,
G. Agrawal, R. Bajwa, S. Bates, S. Bhatia, N. Boden,
A. Borchers, et al. In-datacenter performance analysis
of a tensor processing unit. In 2017 ACM/IEEE 44th
Annual International Symposium on Computer Architecture (ISCA), pages 1–12. IEEE, 2017. 4, 5
[21] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural
networks. In Advances in Neural Information Processing Systems, 2012. 1, 2
[22] J. Lemley, S. Bazrafkan, and P. Corcoran. Smart
augmentation learning an optimal data augmentation
strategy. IEEE Access, 5:5858–5869, 2017. 1, 2
[23] S. Lim, I. Kim, T. Kim, C. Kim, and S. Kim. Fast
autoaugment. arXiv preprint arXiv:1905.00397, 2019.
2, 4
[24] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar. ´
Focal loss for dense object detection. In Proceedings
of the IEEE international conference on computer vision, pages 2980–2988, 2017. 1, 4, 5
[25] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona,
D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft ´
coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer,
2014. 1, 5
[26] C. Liu, B. Zoph, J. Shlens, W. Hua, L.-J. Li, L. FeiFei, A. Yuille, J. Huang, and K. Murphy. Progressive neural architecture search. arXiv preprint
arXiv:1712.00559, 2017. 4
[27] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed,
C.-Y. Fu, and A. C. Berg. Ssd: Single shot multibox
detector. In European conference on computer vision,
pages 21–37. Springer, 2016. 2
[28] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision
and pattern recognition, pages 3431–3440, 2015. 8
[29] R. G. Lopes, D. Yin, B. Poole, J. Gilmer, and E. D.
Cubuk. Improving robustness without sacrificing
accuracy with patch gaussian augmentation. arXiv
preprint arXiv:1906.02611, 2019. 2
[30] I. Loshchilov and F. Hutter. SGDR: Stochastic gradient descent with warm restarts. arXiv preprint
arXiv:1608.03983, 2016. 4
[31] S. Mun, S. Park, D. K. Han, and H. Ko. Generative
adversarial network based acoustic scene training set
augmentation and selection using svm hyper-plane. In
Detection and Classification of Acoustic Scenes and
Events Workshop, 2017. 1
[32] C. Peng, T. Xiao, Z. Li, Y. Jiang, X. Zhang, K. Jia,
G. Yu, and J. Sun. Megdet: A large mini-batch object
detector. In The IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), June 2018. 6, 7
[33] L. Perez and J. Wang. The effectiveness of data augmentation in image classification using deep learning.
arXiv preprint arXiv:1712.04621, 2017. 1
[34] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollar. ´
Learning to refine object segments. In European Conference on Computer Vision, pages 75–91. Springer,
2016. 8
[35] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet:
Deep learning on point sets for 3d classification and
segmentation. In Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, pages
652–660, 2017. 8
[36] C. R. Qi, L. Yi, H. Su, and L. J. Guibas. Pointnet++:
Deep hierarchical feature learning on point sets in a
metric space. In Advances in Neural Information Processing Systems, pages 5099–5108, 2017. 8
[37] A. J. Ratner, H. Ehrenberg, Z. Hussain, J. Dunnmon,
and C. Re. Learning to compose domain-specific ´
transformations for data augmentation. In Advances in
Neural Information Processing Systems, pages 3239–
3249, 2017. 1, 2
[38] E. Real, A. Aggarwal, Y. Huang, and Q. V. Le. Regularized evolution for image classifier architecture
search. In Thirty-Third AAAI Conference on Artificial
Intelligence, 2019. 4, 5, 7
[39] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn:
Towards real-time object detection with region proposal networks. In Advances in neural information
processing systems, pages 91–99, 2015. 6, 7
[40] I. Sato, H. Nishimura, and K. Yokoi. Apac: Augmented pattern classification with neural networks.
arXiv preprint arXiv:1505.03229, 2015. 2
[41] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and
O. Klimov. Proximal policy optimization algorithms.
arXiv preprint arXiv:1707.06347, 2017. 4
[42] P. Y. Simard, D. Steinkraus, J. C. Platt, et al. Best
practices for convolutional neural networks applied to
visual document analysis. In Proceedings of International Conference on Document Analysis and Recognition, 2003. 1, 2
[43] L. Sixt, B. Wild, and T. Landgraf. Rendergan:
Generating realistic labeled data. arXiv preprint
arXiv:1611.01331, 2016. 1
[44] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed,
D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich,
et al. Going deeper with convolutions. In Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015. 1
[45] T. Tran, T. Pham, G. Carneiro, L. Palmer, and I. Reid.
A bayesian data augmentation approach for learning
deep models. In Advances in Neural Information Processing Systems, pages 2794–2803, 2017. 1, 2
[46] V. Verma, A. Lamb, C. Beckham, A. Courville,
I. Mitliagkis, and Y. Bengio. Manifold mixup: Encouraging meaningful on-manifold interpolation as a
regularizer. arXiv preprint arXiv:1806.05236, 2018. 7
[47] L. Wan, M. Zeiler, S. Zhang, Y. Le Cun, and R. Fergus. Regularization of neural networks using dropconnect. In International Conference on Machine Learning, pages 1058–1066, 2013. 2
[48] X. Wang, A. Shrivastava, and A. Gupta. A-fastrcnn: Hard positive generation via adversary for object detection. In Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, pages
2606–2615, 2017. 2
[49] T. Yang, X. Zhang, Z. Li, W. Zhang, and J. Sun.
Metaanchor: Learning to detect objects with customized anchors. In Advances in Neural Information
Processing Systems, pages 318–328, 2018. 6
[50] D. Yin, R. G. Lopes, J. Shlens, E. D. Cubuk, and
J. Gilmer. A fourier perspective on model robustness
in computer vision. arXiv preprint arXiv:1906.08988,
2019. 2
[51] S. Zagoruyko and N. Komodakis. Wide residual networks. In British Machine Vision Conference, 2016.
2
[52] H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez-Paz.
mixup: Beyond empirical risk minimization. arXiv
preprint arXiv:1710.09412, 2017. 7
[53] Z. Zhong, L. Zheng, G. Kang, S. Li, and Y. Yang.
Random erasing data augmentation. arXiv preprint
arXiv:1708.04896, 2017. 2, 13
[54] X. Zhu, Y. Liu, Z. Qin, and J. Li. Data augmentation
in emotion classification using generative adversarial
networks. arXiv preprint arXiv:1711.00648, 2017. 1
[55] B. Zoph and Q. V. Le. Neural architecture search with
reinforcement learning. In International Conference
on Learning Representations, 2017. 4
[56] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le.
Learning transferable architectures for scalable image
recognition. In Proceedings of IEEE Conference on
Computer Vision and Pattern Recognition, 2017. 1, 4