- 论文链接:https://arxiv.org/abs/2012.07177
- 作者单位:谷歌大脑
本篇文章中,作者对copy-paste方法做了系统性的研究。之前的copy-paste方法需要考虑图片的周围的场景,作者发现其实简单的随机copy-paste方法就已经非常好用了。作者把coco的记录再一次刷新,实例分割涨了0.6个点,目标检测涨了1.5个点,拿了个双料第一,实例分割达到了49.1,目标检测达到了57.3。作者使用的是Cascade Eff-B7 NAS-FPN做的研究,不知道此方法在Scaled-YOLOv4上表现如何。
Copy-Paste方法有生成很多新的训练数据
- 两张图片的选择,是把图片a贴到图片b还是把图片b贴到图片a
- 也可以选择部分a图片中的实例贴到b中
- 在贴实例的时候,位置的选择
这些都会影响copy-paste的结果,下图就是各种各样的copy-paste方法
具体实现方法:
- 随机挑选两张图片,两张图片随机水平旋转,随机缩放
- 随机挑选其中一张图片的部分实例,贴到另一张图中
- 去掉完全被遮挡的实例
- 使用α去平滑paste的实例,使得与目标图片融合的更好 ,对pasted image(I2)的ground-truth做高斯滤波,得到一个mask图片α, target image是I1,增强后的结果这样计算I1 × α + I2 × (1 − α)
如此简单粗暴的方法得到了一个非常好的效果,证明了以前的几篇论文灌水严重。。。不过这就是深度学习发展的过程吧