cnn神经网络可以用于数据拟合吗_随机擦除数据扩增

摘要

在本文中,我们介绍了随机擦除,一种简单而有效的数据扩增技术用于训练卷积神经网络(CNN)。在训练阶段,随机擦除在图像中随机选择一个矩形区域,并用随机值擦除其中的像素。在这个过程中,生成了不同遮挡程度的训练图像,降低了网络过拟合的风险,使模型对遮挡具有鲁棒性。随机擦除对于参数学习是自由的,容易实现,并可以集成到大多数基于 CNN 的识别模型。尽管很简单,随机擦除在图像分类、目标检测和行人重新识别(re-ID)方面取得了一致的改进。在图像分类方面,我们的方法将 WRN-28-10: 在 CIFAR10 上 top-1 错误率从 3.72%降低到 3.08%,在 CIFAR100 上从 18.68%降低到 17.65%。对于 PASCAL VOC 2007 上的对象检测,随机擦除将 fast-RCNN 从 74.8%降低到 76.2%。对于行人重识别,当在最近的深度模型中使用随机擦除时,我们达到了最先进的精度:在新的评估方案下,Market-1501 的测试中 rank-1 精度为 89.13%,DukeMTMC-reID 为 84.02%,CUHK03 为 63.93%。

1.介绍

泛化能力是卷积神经网络(CNN)的一个研究重点。当模型过于复杂时,例如相对于训练样本的数量,模型的参数过多,可能会发生过拟合,削弱模型的泛化能力。一个学习过的模型可以描述随机误差或噪声,而不是底层的数据分布。在情况较差的情况下,CNN 模型对训练数据可能表现良好,但对新数据的预测则明显失败。为了提高 CNNs 的泛化能力,人们提出了许多数据扩增和正则化方法,如随机裁剪、翻转、丢弃、批量归一化。

8f07b09cc35ef9008974fa598fc494f8.png

图 1 所示。随机擦除的例子。在 CNN 的训练阶段,我们在图像中随机选择一个矩形区域,用随机值擦除其中的像素。由此产生了具有不同程度遮挡的图像。

遮挡是影响神经网络泛化能力的重要因素。它是可取的,在各种水平的遮挡情况下保持不变是可达到的。当物体的某些部分被遮挡时,强分类模型应该从物体的整体结构中识别出该物体的类别。然而,所收集的训练样本在遮挡情况下通常表现出有限的方差。在所有训练对象都清晰可见的极端情况下,即没有遮挡发生的情况下。则学习到的 CNN 模型在测试图像上工作得很好。但由于 CNN 模型的泛化能力有限,可能无法识别部分被遮挡的物体。虽然我们可以手动地将被遮挡的自然图像添加到训练数据中,但这个过程代价昂贵,而且遮挡的程度会受到限制。

为了解决网络的遮挡问题,提高网络的泛化能力,本文引入了一种新的数据扩增方法——随机擦除。它可以很容易地在大多数现有的 CNN 模型中实现。在训练阶段,小批量样本中的图像将随机进行两种操作中的一种:1)保持不变;2)随机选择一个任意大小的矩形区域,并对所选区域内的像素进行随机分配值。在操作 2)中,以随机位置和随机大小的遮罩部分遮挡图像。通过这种方法,可以生成基于原始图像的不同遮挡级别的图像。随机擦除的例子如图 1 所示。

两种流行的数据扩增方法,如翻转和裁剪,他们在图像层面上工作,与随机擦除密切相关。这两种技术都证明了提高图像识别精度的能力。相比之下,翻转(镜像)在增强期间没有信息丢失。然后,与裁剪分离,在随机擦除中,1)只遮挡部分目标,保持整体目标结构,2)擦除区域的像素重新赋随机值,这一过程可以看作是给图像添加块噪声。

主要工作在完全连接(FC)层,丢弃也与我们的方法非常相关。它以 p 的概率去除(隐藏的和可见的)CNN 的单位。随机擦除有点类似于在图像级别上执行去除。不同的是,在随机擦除中,1)我们操作在一个连续的矩形区域上,2)没有像素(单位)被丢弃,3)我们专注于使模型对噪声和遮挡更加鲁棒。最近的 A-Fast-RCNN 通过训练一个生成带有遮挡例子的对抗网络来学习遮挡不变目标检测器。与 A-Fast-RCNN 相比,随机擦除不需要任何参数学习,可以很容易地应用于其他基于 CNN 的识别任务,而且在目标检测方面仍具有与 A-Fast-RCNN 竞争的准确率。

随机擦除的优点:

  • 一个轻量级的方法,不需要任何额外的参数学习或内存消耗。在不改变学习策略的情况下,可以很容易地集成到各种 CNN 模型中。
  • 现有数据增加和正则化方法的补充方法。结合后,随机擦除进一步提高了识别性能。
  • 持续改进最新的最先进的深度模型在图像分类、检测和人脸识别方面的性能。
  • 提高 CNN 对部分遮挡样本的鲁棒性。当我们在 CIFAR-10 测试数据集中随机添加遮挡时,随机擦除的效果明显优于基线模型。

2.相关工作

卷积神经网络(CNN)的过拟合问题由来已久。一般来说,降低过拟合风险的方法可以分为两类:数据扩增和正则化。

数据扩增。减轻过拟合最直接的方法是获取尽可能多的训练数据。然而,获取和标记训练数据的成本很高。数据扩增在深度 CNN 的训练中得到了广泛的应用。数据扩增的目的是从现有数据中人为地扩大训练数据集,使用各种翻译,例如,翻译,旋转,翻转,裁剪,添加噪声等。在深度 CNN 的训练中,最常用、最有效的两种数据扩增方法是随机翻转和随机裁剪。随机翻转是将输入图像水平方向随机翻转,而随机裁剪是从输入图像中提取随机分支。作为一种类似的选择,随机擦除可能会丢弃对象的某些部分。对于随机裁剪,它可能会裁剪掉对象的角落,而随机擦除可能会遮挡对象的某些部分。随机擦除维护对象的全局结构。此外,它可以看作是添加噪声的图像。随机裁剪和随机擦除的结合可以产生更多的不同的训练数据。最近,[24]通过使用 Fast-RCNN 检测来进行对抗,通过在空间上阻塞一些特征映射来快速创建困难样本。与在特征空间中生成闭塞的例子不同,随机擦除从原始图像中生成图像,而只需要很少的计算,这实际上是没有代价的,不需要任何额外的参数学习。

正则化。在 CNN 模型的训练中,正则化是防止过拟合的关键组成部分。各种正则化方法被提出。[14]在训练过程中随机丢弃(设置为 0)每个隐藏神经元有概率的输出,只考虑剩余权值在前传和后传中的贡献。DropConect 是丢弃的泛化,它在训练过程中随机选择权重为 0。提出了一种自适应缺失[1]算法,通过二值置信网络估计每个隐藏神经元的缺失概率。随机池在训练过程中从多项式分布中随机选择激活,无参数,可与其它正则化技术相结合。最近,通过在损耗层添加噪声,引入了一种名为“扰动”的正则化方法。在每次训练迭代过程中,都会将一小部分样本的标签随机更改为不正确的值。在保持与原 patch 几乎相同的全局结构的同时,对每个局部 patch 内的像素进行随机的洗牌,产生丰富的局部变化,用于 CNN 的训练。

3.数据集

对于图像分类,我们在三个众所周知的图像分类数据集上进行评价,即 CIFAR-10,CIFAR-100 和一个新的数据集 Fashion-MNIST。CIFAR-10 和 CIFAR-100 分别包含 5 万个用于训练和 1 万个用于测试 32×32 幅彩色图像,这分别来自 10 个类和 100 个类的。Fashion-MNIST 由 60000 张用于训练和 10000 张用于测试的 28×28 的灰度图片组成,每一张图片都与来自 10 个类的标签相关联。我们评估了运行五次以“mean+-std”格式 rank-1 的错误率。

对于对象检测,我们使用 PASCAL VOC 2007 数据集,该数据集在训练/验证和测试集中包含 24,640 个注释对象的 9,963 幅图像。我们使用“trainval”集进行训练,使用“test”集进行测试。

对于行人重识别,Market-1501 包含 32,668 个标记的边界盒,其中包含从 6 个不同视角捕获的 1,501 个行人。数据集被分为两部分:12936 幅图像,751 个行人用于训练;19732 幅图像,750 个行人用于测试。在测试中,使用有 750 个行人 3,368 幅手绘图像作为探测集来识别测试集上正确的识别。DukeMTMC-reID 包含了由 8 个高分辨率摄像机拍摄的 36,411 幅图像,包含 1,812 个行人。CUHK03 包含 1467 个行人的 14096 张图像。我们使用在引用 Re-ranking person re-identification with k-reciprocal encoding 中提出的新的训练/测试协议来评估多镜头 re-ID 性能。训练集中有 767 个行人,测试集中有 700 个行人,这个设置更符合实际应用场景。我们在检测集和标记集上进行实验。我们评估第一序列的精度和平均精度(mAP)。

4.我们的方法

本节介绍用于训练卷积神经网络(CNN)的随机擦除数据扩增技术。我们首先描述随机擦除的详细过程。然后,介绍了随机擦除在不同识别任务中的实现。最后,我们分析了随机擦除和随机裁剪的区别。

4.1 随机擦除

在训练阶段,随机擦除以一定概率发生。对于一张图片 I 在小批量数据集中,对它进行随机擦除的概率为 p,保持不变的概率为 1-p。在这处理过程中,不同级别遮挡的的训练图片完成生成。

e436fb273879f02b8653a3026bd4ce56.png
59724e0b58457fb2c782dd6d4b7b45fe.png

算法 1

4.2 随机擦除用于图像分类和行人重识别

在图像分类中,根据图像的可视内容对图像进行分类。一般来说,训练数据并没有提供图像中目标的位置,我们不知道目标在哪里,所以我们根据 Alg 对整个图像进行随机擦除。

最近, 行人重识别被认为是一个分类问题,使用深度卷积神经网络(CNN)来学习具有鲁棒性特征使用深卷积神经网络(CNN)[33],类似于图像分类数据集,大多数现有的数据集使用检测边界盒作为训练数据,不提供人的位置,因此我们执行随机擦除与图像分类策略相同,即在整幅图像上选取擦除区域。用于图像分类和重新识别的随机擦除示例如图 1 所示。

845f43e8ce4894e1aabe7f5da96b0c8b.png

图 2。用于对象检测的随机擦除示例有图像感知随机擦除(IRE)、对象感知随机擦除(ORE)和图像和对象感知随机擦除(I+ORE)。

4.3 用于对象检测的随机擦除

目标检测的目的是检测图像中某一类语义对象的实例。由于我们可以从训练数据中获得图像中每个目标的位置,因此我们采用三种方案来实现随机擦除:1)图像感知随机擦除(IRE):在整个图像上选择擦除区域,与图像分类和人物重新识别相同;2)对象感知随机擦除(ORE):在每个对象的包围框中选择擦除区域。在该方案中,如果图像中有多个目标,则对每个目标分别进行随机擦除。3)图像和物体感知随机擦除(I+ORE):在整个图像和每个物体包围框中选择擦除区域。这三种方案用于目标检测的随机擦除示例如图 2 所示。

4.4 随机擦除和随机裁剪

随机裁剪是一种有效的数据扩增方法,它减少了背景在 CNN 决策中的贡献,也可以将学习模型建立在对象的部分存在上,而不是聚焦于整个对象。与随机剪切相比,随机擦除保留了物体的整体结构,同时遮挡了物体的某些部分。另外,擦除区域的像素被重新赋值为随机值,可以看作是给图像添加了噪声。这两种方法在数据扩充方面是互补的。随机擦除、随机裁剪和组合的示例如图 3 所示。

f28cbbe3ce03a3b01048fd7bbfb48775.png

图 3。随机擦除、随机剪切和他们的组合。将这两种增强方法结合在一起,可以生成更多样的图像。

5.实验

在本节中,我们报告三个识别任务的结果,包括图像分类、目标检测和行人重检测。

5.1 图像分类

5.1.1 实验设置

在我们所有的实验中,我们比较了经过随机擦除或没有随机擦除训练的 CNN 模型。对于相同的深层架构,所有的模型都是从相同的权重初始化中训练出来的。注意,在我们的实验中使用了一些流行的正则化技术(如重量衰减、批处理标准化和退出)和各种数据扩充(如翻转、填充和裁剪)。我们在各种 CNN 架构上进行了实验,总结如下:

CIFAR-10 和 CIFAR-100 的 CNNs。在 CIFAR-10 和 CIFAR-100 的实验中,我们采用了六种架构:AlexNet、VGG19-BN、ResNet、pre-activation ResNet、ResNeXt、Wide Residual Networks。AlexNet 和 VGG19-BN 的架构与原来的 AlexNet 相同,只是抛弃了 FC7 和 FC8 全卷积层。此外,在 VGG19-BN 中,对每个卷积层进行批处理归一化。我们使用 20,32,44,56,110 层网络用于 ResNet 和预激活 ResNet。此外,ResNet 采用了与 ImageNet 分类相同的 18 层网络结构。我们使用的 ResNeXt-29-8×64 和 WRN-28-10 的方式与相同。严格按照训练程序执行。特别地,学习率从 0.1 开始,在第 150 和 225 代之后被除以 10,我们在第 300 代停止训练。如果没有指定,所有模型都使用数据扩增进行训练:随机执行水平翻转,并从每边用 4 个像素填充的图像中进行随机的 32×32 裁剪。

a464ea432c772aff4ca41f3c65a69f5b.png

图 4。 基于 ResNet18 (pre-act)在 CIFAR- 10 不同纵横比 r 下的测试误差(%)l。

5.1.2 超参数的影响

在对 CNN 训练进行随机擦除时,我们有三个超参数需要评估,即,擦除概率 p,擦除区域的面积比范围 sl 和 sh,擦除区长宽比范围 r1 和 r2。为了证明这三个超参数对模型性能的影响,我们在基于 ResNet18 (pre-act)的 ci 远-10 上进行了不同超参数设置的实验,并对训练图像进行了随机擦除。我们将 sl 固定为 0.02,并且 r1=1/r2。因此,我们对 p, sh 和 r1 设置。

表 1 显示了擦除概率 p 和最大擦除区域面积比 s 的影响 h。值得注意的是,随机擦除始终优于基线方法在所有设置。与基线方法相比,我们的最佳结果(4.19%)降低了 1.06%的分类错误率。我们还可以看到,即使一些训练图像具有较小的区域(当 p = 0.1 和 sh = 0.1)被选择擦除,我们的方法也可以降低分类错误率。此外,我们的方法对参数变化具有鲁棒性,当 p∈[0.2,0.8]和 sh =∈[0.2,0.8],该范围内的平均分类错误率为 4.53%±0.18,表现大大超过基线方法。

318cfe3e89512894600d45c1c4595c64.png

表 1。 基于 ResNet18(pre-act)在 CIFAR-10 上不同 p 和 sh 下的测试误差(%)。我们修正 r1=1/r2=0.3

对于纵横比 r1 的影响被展示在图片,从图可以看出随机擦除对擦除区域的相关比也具有较强的鲁棒性。当 r1 设置为 1,擦除区域的形状变为正方形,随机擦除的精度比其他设置略低。在接下来的图像分类实验中,如果没有指定,我们设置 p=0.5,sl=0.02,sh=0.4 并且 r1=1/r2=0.3。

5.1.3 四种擦除值

我们用四种擦除方法来计算随机擦除。对所选擦除区域的像素进行擦除,方法有四种:1)每个像素在[0,255]内随机赋值;2)将所有像素赋值为 ImageNet 2012 的平均值(即[125,122,114]);3)所有像素赋值为 0;4)所有像素被分配为 255。表 2 显示了使用 ResNet18 (pre-act)对 CIFAR10 进行不同擦除方式的结果。RE-R 实现了与 RE-M 几乎相同的性能,两者都优于 RE-0 和 RE-255。如果没有指定,我们在接下来的实验中使用 RE-R 作为擦除值

33c7e972a88e29096ad75cb21d62e664.png

表 2。在 CIFAR- 10 上不同擦除值的测试误差(%)。基地。:基线,RE-R:随机擦除,RE-M:按 ImageNet 2012 平均值擦除,RE-0:按 0 擦除,RE-255:按 255 擦除。

5.1.4 丢弃和随机噪声的比较

我们比较了随机擦除和应用于图像层的两种不同的方法。1) 丢弃: 使用概率

a90431e7d3a42e27eb315b644634356c.png

将丢弃应用到图像图层上。2)随机噪声:我们将输入图像的像素以随机值[0,255]的概率为

21a00e29fc3ed9c24bee7ecf21c33bb8.png

,在输入图像上添加不同级别的噪声。一幅图像是否选择经历丢弃或随机噪声的概率被设为 0.5 为随机擦除。结果如表 3 所示。很明显,在图像层上应用丢弃或添加随机噪声都不能提高精度。作为概率

856836937fd67a17b1b15264efd09b63.png

816b50e13a25e25f59afa0356a89e0c2.png

增加,性能迅速下降。当

60eb05a18ff2a2a008bd260d7f694829.png

= 0.4,随机噪声的噪声像素个数等于随机擦除的擦除像素个数,随机擦除的错误率从 5.25%增加到 6.55%,而随机擦除使错误率降低到 4.19%。

66ab9e3965ebebe6f5b44a88c6bef2e2.png

表 3。比较随机擦除与丢弃和随机噪声在 CIFAR-10 表现。

5.1.5 数据扩增研究

我们的方法与随机翻转和随机裁剪的对比如图 5 所示。可以看出,单独使用这三种方法时,随机裁剪(6.4%)的效果优于其他两种方法。随机擦除和另外两种增强技术是相辅相成的。其中,三种方法的错误率为 4.19%,在不增加误差的情况下比基线降低 2.06%。通过结合这三种增强技术,我们可以在训练 CNN 时生成更多不同的图像。

47d817c7bd982da03d6e3351a94bfa83.png

图 5。基于 ResNet18(pre-act)的 CIFAR-10 上不同数据扩增方法的错误率(%)。随机翻转,RC:随机剪切,RE:随机擦除。

5.1.6 分类性能

对不同架构的 CIFAR-10 和 CIFAR-100 应用随机擦除的结果如表 4 和表 5 所示。可以看出,在 CIFAR10 和 CIFAR100 上,经过随机擦除训练的模型始终优于那些没有经过随机擦除训练的模型,说明我们的方法适用于各种 CNN 架构。对于 CIFAR10,我们的方法使用 ResNet-110 和 ResNet-110-PreAct 分别提高了 0.5%和 0.54%的准确率。特别是在使用 WRN-28-10 时,错误率达到 3.08%,准确率提高了 0.64%,达到了目前先进水平。对于 CIFAR100,我们的方法分别使用 ResNet-110-PreAct 和 ResNeXt-8-64 达到 20.83%和 18.67%。使用 WRN-28-10 进行随机擦除,错误率为 17.65%,错误率降低 0.97%。图 6 和图 7 为 CIFAR10 和 CIFAR100 的错误率与代数的训练曲线。

6372169f831bfaa4995df3abf730d0d2.png

表 4。在 CIFAR-10 上使用不同架构的错误率(%)。

6b63ca2fdd7c1005259919d66de5a616.png

表 5 所示。在 CIFAR- 100 上使用不同架构的错误率(%)。

862b505c57ddd30a504cfa21200b89ee.png

图 6。不同纵横比 r 下的错误率(%)l 基于 ResNet18 (pre-act)的 CIFAR- 10。

f262dedcd529a8289898fcbe5281909e.png

图 7。不同纵横比 r 下的错误率(%) 基于 ResNet18(pre-act)的 CIFAR- 10。

5.1.7 遮挡的鲁棒性

为了进一步证明随机擦除的优点,我们展示了随机擦除对遮挡的鲁棒性。在实验中,我们在 CIFAR-10 数据集上添加了不同层次的遮挡。我们在面积为 s 的图像中随机遮挡一个随机值的区域。擦除区域的长宽比随机选取在[0.3,3.33]范围内。如图 8 所示。显然,不进行随机擦除的基线的性能随着 s 的增加而快速下降。不出意料,进行随机擦除的模型训练的性能下降缓慢。特别是当遮挡区域面积为图像的一半(s = 0.5)时,我们的方法的错误率只有 56.36%,而基线迅速下降到 75.04%。结果表明,随机擦除可以显著提高神经网络对遮挡的鲁棒性。

9312fd7e237adb41d91b81f37977fcd9.png

图 8。基于 ResNet18 (pre-act)的 CIFAR-10 在不同遮挡水平下的错误率(%)。

5.2 目标检测

5.2.1 实验设置

实验基于 Fast-RCNN 探测器,模型被用于 ImageNet 分类模型初始化,然后在对象检测数据上进行微调。我们尝试使用 VGG16 架构。我们用 A-Fast-RCNN 进行训练。我们采用 80K 的 SGD 来训练所有机型。训练率从 0.001 迭代 6 万次后减小到 0.0001。通过这个训练过程,基线 mAP 比 In Proceedings of the IEEE international conference on computer vision 中的报告图略好一些。我们在训练中使用选择性搜索建议。对于随机擦除,如果没有指定,我们设 p = 0.5,sl=0.02,sh=0.2 并且 r1=1/r2=0.3。

5.2.2 检测性能

我们在表 6 中报告了在训练 Fast-RCNN 时使用 IRE、ORE 和 I+ORE 的结果。检测器用 VOC07 trainval 和 VOC07 与 VOC12 trainval 的两个训练集的并集进行训练。使用 VOC07 training - val 进行训练时,基线为 69.1%。使用 IRE 方案学习的检测器得到了 70.5%的 mAP,ORE 方案得到了 71.0% mAP。ORE 的表现略好于 IRE。在对整体图像和物体进行随机擦除时,使用 I+ORE 训练的检测器在 71.5% mAP 的情况下性能得到进一步提高。我们的方法(I+ORE)比 A-Fast- RCNN 的 mAP 高出 0.5%。此外,该方法不需要任何参数学习,易于实现。当使用放大后的 07+12 训练集时,基线为 74.8%,明显优于仅使用 07 训练集。IRE 和 ORE 两种方案的结果相似,IRE 的 mAP 提高了 0.8%,ORE 提高了 1.0%。在训练中使用 I+ORE, Fast-RCNN 的 mAP 增加到 76.2%,超过基线 1.4%。

5105b8a21b9f905aadb9fe3e61137202.png

表 6 所示。VOC 2007 测试检测平均精度(%)。FRCN*指使用 A-Fast-RCNN 和我们的方法的训练计划 FRCN

5.3 行人重检测

5.3.1 实验设置

我们的实验基于 ID-discriminative Embedding (IDE)、TriNet (Triplet Net)和 SVD- Net。IDE 和 SVDNet 采用 Softmax 损失训练,TriNet 采用三联体损失训练。输入图像大小调整为 256×128。对于 IDE 方法,我们使用在 Hauptmann. Person reidentification:Past, present and future.中的训练策略。。特别地,我们在 pooling 5 层之后增加了一个 128 单元的全连接层,然后是批处理归一化,ReLU 和丢弃。丢弃概率设置为 0.5。我们用 SGD 来训练 IDE。学习率从 0.01 开始,然后除以 10 在每 40 次之后,我们总共训练 100 次。在测试中,我们提取了 pooling5 作为 Market-1501 和 DukeMTMC-reID 数据集的特征,提取了 128 单元的全连接层作为 CUHK03 数据集的特征。对于 TriNet 和 SVDNet,我们使用与 A. Hermans, L. Beyer, and B. Leibe.和 Y. Sun, L. Zheng, W. Deng, and S. Wang.中提出的相同的模型,并遵循相同的训练策略。在测试中,提取最后一个 128 单元的全连接层作为 TriNet 的特征和 SVDNet 的 pooling5。值得注意的是,我们使用 256×128 作为输入大小来训练 SVDNet,使用 224×224 可以取得比原论文更好的性能。我们对 IDE 和 TriNet 使用 ResNet- 18、ResNet-34 和 ResNet-50 架构,对 SVDNet 使用 ResNet-50 架构。我们在 ImageNet 预训练的模型上对它们进行微调。我们还在训练中执行随机裁剪和随机水平翻转。对于随机擦除,我们设置 p=0.5,sl=0.02,sh=0.2 并且 r1=1/r2=0.3。

5.3.2 行人重识别性能

在不同的模型上实现随机擦除。在 Market- 1501、DukeMTMC-reID、CUHK03 上使用不同的方法和架构实现随机擦除的结果如表 7 所示。对于 Market-1501 和 DukeMTMC-reID 数据集,IDE 和 SVDNet 的表现优于 TriNet。由于每个行人识别中存在大量的样本,使用 Softmaxloss 可以学习识别特征,用于行人重识别。特别地,IDE 在 Market-1501 和 DukeMTMC- reID 上使用 ResNet-50 在 rank-1 下分别达到 83.14%和 71.99%的精度。SVDNet 在 Market- 1501 和 DukeMTMC-reID 上使用 ResNet-50 分别给出了 84.41%和 76.82%的 rank-1 准确率。但是,在 CUHK03 数据集上,TriNet 比 IDE 和 SVDNet 性能好,因为缺少训练样本来使用 Softmax loss 来训练模型。使用 ResNet-50 对 CUHK03 进行标记设置时,TriNet 的 rank-1 准确率为 49.86%,mAP 为 46.74%。

eb5f6a9d9d8f4b39bf0565ddeebaa51d.png

表 7 所示。基于不同型号的 Market-1501, DukeMTMC-reID, CUHK03 的行人重识别与随机擦除性能。我们在新评估方案下对 CUHK03 进行评估。

在训练这些模型的过程中,在执行随机擦除时,可以明显的看到,随机擦除始终能够提高 rank-1 的精度,特别是在所有的设置中,特别是在 CUHK03 中,mAP 的精度都得到了提高。特别地,对于 Market-1501,使用 ResNet-50,随机擦除将 IDE 和 SVDNet 的 rank-1 提高 3.10%和 2.67%。对于 DukeMTMC-reID,随机擦除将 IDE (ResNet-50)的 rank-1 精度从 71.99%提高到 74.24%,将 SVDNet (ResNet-50)的 rank-1 精度从 76.82%提高到 79.31%。对于 CUHK03,在对 ResNet-50 使用随机擦除标记和检测集能够提高 8.26%和 5.0%的精度。由于缺乏足够的训练数据,可能会导致 CUHK03 数据集的过拟合。例如,对于更深层次的架构 ResNet-50,当在标记设置上使用 IDE 模型时,它获得的性能比 ResNet-34 差。我们的数据扩增方法可以有效地减少过拟合,提高性能。

与最先进的方法进行比较。我们将我们的方法与表 8、表 9 和表 10 中的 Market-1501、DukeMTMCreID 和 CUHK03 上最先进的方法进行了比较。在 Market-1501 上,我们的方法,SVDNet (ResNet-50)+,实现了 87.08%的 rank-1 精度和 71.31%的 mAP,实现了具有竞争力的先进的性能。我们也结合由 Z. Zhong, L. Zheng, D. Cao, and S. Li.提出的一个有效的重新排序的方法评估模型。该方法可应用于任意初始排序列表,利用库中的 k-reciprocal 近邻来提高排序结果。结合重新排序的方法,我们的方法在性能上有了进一步的提高,rank1 的准确率达到了 89.13%,在 Market-1501 上的 mAP 精度达到了 83.93%。在 DukeMTMCreID 上,我们使用 SVDNet (ResNet-50)+Ours 还获得了具有竞争力的结果 rank-1 的精度为 79.31%,mAP 为 62.44%。在重新排序后,我们的方法给出了 84.02%rank-1 准确率和 78.28%的 mAP。在 CUHK03 上,我们也获得了在标记和检测集上最先进的结果。特别是我们的方法产生 58.14%和 55.50%的 rank-1 精度在标记和检测集。这是大大优于其他方法的表现。在重新排序处理后,我们的方法在标记和检测集上给出 63.93%和 64.43%的精度。

6.总结

在本文中,我们提出了一种名为“随机擦除”的简单数据扩增方法来训练卷积神经网络(CNN)。它可以很容易实现:随机擦除在每次训练迭代中随机遮挡输入图像的任意区域。在不同架构的 CIFAR10 和 CIFAR100 上进行的实验表明了我们的方法的有效性。在目标检测和行人重识别方面进行了合理的改进,证明了该方法对各种识别任务具有良好的泛化性能。在未来的工作中,我们将把我们的方法应用到其他 CNN 识别任务中,如物体检索和人脸识别。

本论文由 iSE 实验室 2020 级硕士生王擎宇转述。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值