复制-粘贴大法(Copy-Paste):简单而有效的数据增强

论文标题:Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

论文地址:https://arxiv.org/pdf/2012.07177.pdf

非官方代码:https://github.com/qq995431104/Copy-Paste-for-Semantic-Segmentation


目录

1、摘要

2、简介

 3、本文的方法

混合粘贴

大尺度抖动

4、实验结果

4.1 模型初始化、抖动尺度方面

4.2 和mixup的对比

4.3 在不同backbone和输入尺寸上的对比

4.4  结合自训练和复制粘贴

 4.5 在coco的SOTA模型上的实验

4.6 在 PASCAL VOC目标检测和语义分割上的实验

 4.7 LVIS数据集上的实验

 5 总结


1、摘要

建立有效的实例分割模型,并能处理罕见的对象类别是计算机视觉中一个重要的挑战。数据增强是应对这一挑战的一个有前途的方向。在这里,我们在实例分割方向对复制-粘贴增强进行了系统的研究,如随机地将对象粘贴到一张图像上。先前对复制粘贴的研究依赖于对周围视觉环境的建模来。然而,我们发现随机粘贴对象的简单机制已经足够好了,并且可以在强baseline之上提供稳定的增益。此外,我们通过半监督方法证明复制-粘贴带来的性能是可叠加的,该方法通过伪标签利用额外的数据(如自训练)。在COCO实例分割上,我们实现了49.1 mask AP和57.3 box AP,相比之前的sota模型,有+0.6 mask AP和+1.5 box AP的改进。我们进一步证明了复制-粘贴可以显著改善LVIS benchmark。我们的baseline模型在罕见类别上比LVIS 2020挑战赛优胜条目高出+3.6 mask AP。

2、简介

通过粘贴不同规模的不同对象到新的背景图像,复制-粘贴有潜力免费获取丰富的和新颖的训练数据。这一点和其他数据增强类似,但是本文的复制粘贴主要用于实例分割,其粘贴的对象是从一张图中抠出mask部分对应的实例,然后随机粘贴到另一张图像。所复制粘贴的对象,是精确到像素级的,这也是其与Cut-mix方法的区别。

在coco基准集上测试了复制粘贴大法的有效性,如下图所示,通过对比标准尺度抖动、大尺度抖动、大尺度抖动+复制粘贴,可以看出增加了复制粘贴大法后,可以明显进一步提高性能。

 3、本文的方法

方法很简单,主要思想是:混合粘贴+大尺度抖动。

混合粘贴

是指利用公式I_{1} \times \alpha+I_{2} \times(1-\alpha)将两幅图像的内容混合在一起;公式中,I_1是粘贴对象所在的图像,I_2是主图像,\alpha是mask掩模;公式的意思其实很淳朴,就是将I_1中mask部分的像素抠出来,然后粘贴到I_2中,当然,这个过程有很大的随机性:(1)选择用于粘贴的源图和目标图的随机性;(2)选择粘贴源图中哪些对象的随机性;(3)选择粘贴到目标图像的哪些位置的随机性。

混合粘贴的效果如下图:

大尺度抖动

大尺度抖动(Large Scale Jittering,LSJ)是相较于标准尺度抖动(standard scale jittering,SSJ)而言更为大胆的一种尺度抖动方法。在SSJ中,尺度变化的范围是0.8~1.25,而在LSJ中,尺度变化范围是0.1~2.0;如此大范围的抖动,会产生对比强烈的抖动效果。此外,无论LSJ还是SSJ,都使用了随机水平翻转。LSJ的最终效果如下图:

此外,结合自训练,此方法同样能够带来可叠加的收益 。

4、实验结果

4.1 模型初始化、抖动尺度方面

左:使用了预训练/非预训练模型初始化的backbone在使用/不使用复制粘贴情况的下的对比;右:不同抖动尺度下,用和不用复制粘贴的对比。可以看出,无论什么情况,使用了复制粘贴都能带来稳定的收益。

4.2 和mixup的对比

可以看出,在SSJ的实验(左)中,mixup和Copy-Past都能带来收益,但Copy-Past带来的收益更大;但在LSJ的实验(右)中,mixpu带来的收益就几乎没有了,猜测原因应该是LSJ已经足够优秀了,常规的增强方法并不能带来超出LSJ的收益,而Copy-Past就可以。

4.3 在不同backbone和输入尺寸上的对比

从下表可以看出,使用了复制粘贴大法,在所有模型、输入尺度上都能带来稳定收益。

4.4  结合自训练和复制粘贴

自训练利用未标记数据,可带来1.5 Box AP,复制粘贴同样也能带来类似的收益;将两者结合起来用,可以带来“1+1=2”的线性叠加的收益!(能够使收益线性叠加,是真的强!)

将coco中的对象粘贴到coco和粘贴到伪标签数据的对比,可以看出,无论粘贴到哪里都能带来收益,但两者都粘贴则能带来“1+1>2”的收益:

 4.5 在coco的SOTA模型上的实验

相比SOTA模型,添加了复制粘贴和自训练的方法后,带来的收益同样可观:

4.6 在 PASCAL VOC目标检测和语义分割上的实验

实验表明,复制粘贴大法对目标检测和实例分割同样有效:

 4.7 LVIS数据集上的实验

 5 总结

数据增强是许多视觉系统的核心。本文对复制-粘贴数据增强方法进行了严格的研究,发现该方法是非常有效和健壮的。在强大的baseline基础上,无论是在COCO和LVIS实例分割基准集,复制-粘贴在多个实验设置中都能表现良好,并提供了显著的改善。

复制-粘贴增强策略简单,易于插入到任何实例分割代码库中,并且不会增加训练成本或推理时间。我们还展示了复制-粘贴对于在训练过程中合并额外的未标记图像是有用的,并且能够与自训练技术的带来的收益相加。我们希望它足够令人信服,以使复制-粘贴增强可以作为训练实例分割模型时的标准数据增强手段。

YOLOv5小目标检测改进方法及可行性分析 一、改进方法研究现状 数据增强复制粘贴策略 在YOLOv5中,复制粘贴策略(Copy-Paste Augmentation)已被用于小目标检测改进,通过将小目标复制并随机粘贴图像不同位置,提升模型对小目标的敏感性3。例如在VisDrone等数据集上,该策略可提升小目标召回率约3-5%。 CBAM注意力机制应用 现有研究已成功将CBAM(Convolutional Block Attention Module)集成到YOLOv5的Backbone和Neck模块中,通过通道与空间注意力结合,重点关注小目标区域。实验显示在COCO小目标子集上AP@0.5提升约2.1%14。 调参优化方法 图片尺寸:将输入分辨率从 640 × 640 640×640提升至 1280 × 1280 1280×1280可显著改善小目标特征提取,但需平衡计算量(FLOPs增加约230%) 学习率:采用余弦退火策略(Cosine Annealing)配合初始学习率 0.01 → 0.001 0.01→0.001的调整,可提升收敛稳定性 二、论文创新点设计建议 组合式改进框架 提出CSP-CBAM模块(在C3模块中嵌入注意力机制),配合动态复制粘贴策略,形成端到端优化方案: Python class C3_CBAM(nn.Module): def __init__(self, c1, c2): super().__init__() self.cbam = CBAM(c1) # 添加注意力模块 self.conv = C3(c1, c2) # 原C3模块 def forward(self, x): return self.conv(self.cbam(x)) 自适应尺度训练 设计多尺度训练策略(Multi-Scale Training),在训练过程中动态调整输入尺寸: Size t = 640 + 64 × ( t % 5 ) t ∈ [ 0 , T ] Size t ​ =640+64×(t%5)t∈[0,T] 其中 T T为总迭代次数,实现尺寸的周期性变化4。 三、可行性评估 实验设计建议 基线对比:YOLOv5s vs YOLOv5s+CBAM vs YOLOv5s+CBAM+Copy-Paste 数据集:VisDrone2021(小目标占比>40%)、DOTA-v2.0 评估指标:AP@0.5:0.95、AR@100、小目标检测F1-score 预期成果 方法 AP@0.5↑ 小目标F1↑ 参数量↓ Baseline(YOLOv5s) 28.1% 0.412 7.2M +CBAM 30.5% 0.453 7.3M +Copy-Paste 31.2% 0.487 7.2M 组合方法(Proposed) 33.8% 0.526 7.4M 创新性分析 方法论创新:将通道注意力与空间注意力解耦,在FPN层使用独立CBAM模块 工程创新:开发动态尺寸切换训练策略,平衡计算效率与精度 理论创新:通过Grad-CAM可视化证明注意力机制对小目标特征聚焦的有效性 四、实施路线图 第一阶段(1-2周) 复现YOLOv5基线模型,在VisDrone数据集上测试基准性能 第二阶段(3-4周) 实现CBAM模块集成,进行消融实验(Ablation Study) 第三阶段(5-6周) 开发自适应复制粘贴策略,优化数据增强管道 第四阶段(7-8周) 完成多尺度训练策略设计与对比实验 第五阶段(9-10周) 进行模型量化压缩(参考的剪枝方法),部署到嵌入式平台测试 关于以上内容帮我基于四中的实施路线图,包括详细的实验步骤、教程和可修改的代码示例
最新发布
03-25
评论 61
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AICVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值