CutMix：Regularization Strategy to Train Strong Classifiers with Localizable Features

最新推荐文章于 2024-09-04 11:10:15 发布

abrams90

最新推荐文章于 2024-09-04 11:10:15 发布

阅读量2.2k

点赞数 2

分类专栏：深度学习读书笔记机器学习文章标签：深度学习

本文链接：https://blog.csdn.net/abrams90/article/details/112510601

版权

CutMix是一种数据增强技术，旨在通过将一张图像的一部分剪切并粘贴到另一张图像上来训练强分类器，并保持区域dropout的优势。这种方法在CIFAR-100和ImageNet上提高了分类准确性，在弱监督定位任务中也取得了改进，同时增强了模型的定位能力。CutMix预训练模型在目标检测和图像属性任务中表现优异，提高了鲁棒性和不确定性。

摘要由CSDN通过智能技术生成

CutMix：Regularization Strategy to Train Strong Classifiers with Localizable Features

Abstract

区域dropout策略被提出来用于增强神经网络分类器的表现。他们可以引导模型更关注目标共性的部分（腿部而不是头部），使得网络有更好的通用性，有更好的目标定位能力。此外，当前区域dropout将训练样本上通过叠加黑色或者其他噪声块来移除有效信息像素。这种移除并不理想因为它会导致有效信息丢失导致训练效率降低。因此我们提出CutMix数据扩展策略：图像块被剪切粘贴到训练样本上，同时GT标签也成比例的叠加到图像块区域。通过高效利用训练像素保持区域dropout约束的有效性，CutMix在CLFAR与ImageNet分类任务上以及ImageNet弱监督定位任务上成为SOTA的数据扩展方法。此外，与之前的数据扩展方法不同，我们利用CutMix训练的ImageNet分类器当使用预训练模型的时候，在Pascal目标检测及MS-COCO图像属性benchmark上都取得了持续的提升。我们还展示了CutMix改进了模型在input corruption与out-of-distribution目标检测的鲁棒性。源码与预训练模型在https://github.com/clovaai/CutMix-PyTorch。

1.Introduction

深度卷积神经网络（CNNs）在图像分类【31，20，12】，目标检测【30，24】，语义分割【1,25】与视频分析【28,32】等众多计算机视觉领域展现出了有潜力的表现。为了进一步改进训练的效率与表现，业内提出了许多训练策略，包括数据扩展【20】与正则化技术【34，17，38】。

特别是，为了防止CNN关注太多一小部分中间过程或者输入样本的小区域，提出了随机特征擦除正则化方法。例如用于随机丢弃隐藏链接的dropout【34】与用于擦除输入样本随机区域的dropout【3，51，33，8，2】。研究结果显示特征擦除策略通过是的模型不仅仅注意最有区分度的区域而是整个目标区域【33，8】，改进了通用性与局限性。

区域dropout策略在一定程度上改进了分类与检测任务的效果，擦除的区域通常使用0填充【3，33】或者填充随机噪声【51】，极大地降低了训练样本中有效像素的占比。由于CNNs表现出的数据饥饿【27】，我们从理论角度认为这是很大的一个限制。我们如何使用区域dropout最大程度利用区域擦除，同时取得通用性与本地定的均衡。

我们通过提出的CutMix方法解决上述的问题。我们通过用其它样本的图像块替代擦除区域的方法来取代简单的像素擦除方法（见表1）。GT标签也成比例的融入到融合图像的像素中。CutMix既有训练过程中信息未丢失的好处是的训练高效，又保持了区域dropout的好处是的模型更专注目标无区别的部分。添加的块通过使模型需要从部分的视角识别目标，进一步增强了定位能力。训练与推理的消耗保持不变。

CutMix与Mixup【48】共享相同的方法，将两个样本的图像与标签同时进行插值。一定程度上提升分类表现的同时，Mixup样本看起来不自然（见表1种的Mixup样本）。CutMix通过利用另外一张训练样本中的块替代图像区域的方法克服了这个问题。

表1展示了Mixup【48】，Cutout【3】与CutMix方法在图像分类，弱监督定位与迁移学习在目标检测中的效果。尽管Mixup与Cutout增强了ImageNet分类效果，他们在ImageNet定位或者目标检测中的效果变差了。换句话说，CutMix在三个不同任务中稳定达到了提升的效果。

我们在不同CNN网络结构，数据集与任务中进行CutMix进一步评估。结果总结来说，CutMix显著的改进了CIFAR-100数据集上baseline分类器的精度，取得了SOTA的top-1错误率14.49%。在ImageNet数据集上【31】，在ResNet50与ResNet100【12】上应用CutMix分别提升分类精度+2.28%与+1.70%。在定位方面，CutMix将CUB200-2011【44】与ImageNet【31】数据集上弱监督（WSOL）目标定位任务的表现分别提升了+5.4%与+0.9%。优秀的定位能力通过目标检测器与图像属性生成器的在CutMix-ImageNet预训练模型微调结果进一步的证明；CutMix预训练模型改进了Pascal VOC【6】数据集上目标检测mAP+1，MS-COCO上图像属性的表现+2BLEU得分。CutMix还增强了模型的鲁棒性并降低了神经网络的over-confidence问题。

1.Related Works

Regional dropout:【3，51】中提出了随机移除图像中区域增强CNNs通用性表现的方法。目标定位方法【33，2】也使用了regional dropout技术提升CNNs的定位能力。CutMix与这些方法类似，关键的不同是擦除的区域是有其它训练样本的图像块进行了填充。DropBlock【8】将regional dropout引伸到特征空间，也展示出了通用性的增强。CutMix可以在特征空间进行，如我们的实验所示。

Synthesizing training data:有些研究探索了合成训练样本对进一步通用性的影响。通过Stylizing ImageNet【31,7】生成新的训练样本可以引导模型更加专注于外形而不是纹理，取得更好的分类与目标检测的表现。CutMix也通过mini-batch内样本块的剪切复制来生成新样本，带来许多计算机视觉任务上效果的增强；与【7】中的Stylization不同，CutMix只给训练过程带来微小的时耗增加。对于目标检测来说，目标插入方法【5，4】提了出来用于背景目标合成。这些方法目标是训练打个目标样本更好的表达，而CutMix的生成方法可以合成包含多个目标的样本。

Mixup：CutMix在结合两个样本这件事上与Mixup相似，这里新样本的GT标签是由one-hot label线性插值而成的。如实验所示，Mixup样本面临逻辑不清与不自然的问题，因此&