复制-粘贴大法（Copy-Paste）：简单而有效的数据增强

AICVHub

已于 2024-10-22 17:06:54 修改

阅读量3w

点赞数 36

分类专栏： CV数据处理论文笔记文章标签：复制粘贴 Copy-Paste 数据增强图像混合实例分割

于 2020-12-17 10:31:12 首次发布

本文链接：https://blog.csdn.net/oYeZhou/article/details/111307717

版权

论文笔记同时被 2 个专栏收录

64 篇文章

订阅专栏

CV数据处理

28 篇文章

订阅专栏

论文标题：Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

论文地址：https://arxiv.org/pdf/2012.07177.pdf

非官方代码：https://github.com/qq995431104/Copy-Paste-for-Semantic-Segmentation

4.3 在不同backbone和输入尺寸上的对比

4.4 结合自训练和复制粘贴

4.5 在coco的SOTA模型上的实验

4.6 在 PASCAL VOC目标检测和语义分割上的实验

4.7 LVIS数据集上的实验

5 总结

1、摘要

建立有效的实例分割模型，并能处理罕见的对象类别是计算机视觉中一个重要的挑战。数据增强是应对这一挑战的一个有前途的方向。在这里，我们在实例分割方向对复制-粘贴增强进行了系统的研究，如随机地将对象粘贴到一张图像上。先前对复制粘贴的研究依赖于对周围视觉环境的建模来。然而，我们发现随机粘贴对象的简单机制已经足够好了，并且可以在强baseline之上提供稳定的增益。此外，我们通过半监督方法证明复制-粘贴带来的性能是可叠加的，该方法通过伪标签利用额外的数据(如自训练)。在COCO实例分割上，我们实现了49.1 mask AP和57.3 box AP，相比之前的sota模型，有+0.6 mask AP和+1.5 box AP的改进。我们进一步证明了复制-粘贴可以显著改善LVIS benchmark。我们的baseline模型在罕见类别上比LVIS 2020挑战赛优胜条目高出+3.6 mask AP。

2、简介

通过粘贴不同规模的不同对象到新的背景图像，复制-粘贴有潜力免费获取丰富的和新颖的训练数据。这一点和其他数据增强类似，但是本文的复制粘贴主要用于实例分割，其粘贴的对象是从一张图中抠出mask部分对应的实例，然后随机粘贴到另一张图像。所复制粘贴的对象，是精确到像素级的，这也是其与Cut-mix方法的区别。

在coco基准集上测试了复制粘贴大法的有效性，如下图所示，通过对比标准尺度抖动、大尺度抖动、大尺度抖动+复制粘贴，可以看出增加了复制粘贴大法后，可以明显进一步提高性能。

3、本文的方法

方法很简单，主要思想是：混合粘贴+大尺度抖动。

混合粘贴

是指利用公式 $I_{1} \times \alpha+I_{2} \times(1-\alpha)$ 将两幅图像的内容混合在一起；公式中， I_1 是粘贴对象所在的图像， I_2 是主图像， $\alpha$ 是mask掩模；公式的意思其实很淳朴，就是将 I_1 中mask部分的像素抠出来，然后粘贴到 I_2 中，当然，这个过程有很大的随机性：（1）选择用于粘贴的源图和目标图的随机性；（2）选择粘贴源图中哪些对象的随机性；（3）选择粘贴到目标图像的哪些位置的随机性。

混合粘贴的效果如下图：

大尺度抖动

大尺度抖动（Large Scale Jittering，LSJ）是相较于标准尺度抖动（standard scale jittering，SSJ）而言更为大胆的一种尺度抖动方法。在SSJ中，尺度变化的范围是0.8~1.25，而在LSJ中，尺度变化范围是0.1~2.0；如此大范围的抖动，会产生对比强烈的抖动效果。此外，无论LSJ还是SSJ，都使用了随机水平翻转。LSJ的最终效果如下图：