CV-Paper-数据增强-Learning to Generate Synthetic Data via Compositing-CSDN博客

本文链接：https://blog.csdn.net/u012925804/article/details/102728756

本文介绍了一种基于合成数据增强的方法，旨在通过生成符合真实世界分布的图像，提高模型的检测和分类精度。该方法结合图像合成与GAN网络，利用判别器确保生成数据的真实性，避免过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 简介

传统的图像增强方法一般是对图像做一些转换，另外一种较新的方法就是合成数据。

主要思想是合成一些图片，加入到训练中，从而提高检测和分类的精度。这里的合成是指将目标和背景结合。例如我把另外一张图片里面的人抠出来，放到另外一个背景图片里面去，就好像本来是在室内的人，抠出来放到一个室外的照片里面去。这样做的好处是增加了图片的多样性。增加一个上下文的多样性。

例如，我们真实世界里面的人是在什么地方都会出现的，马路上、车里、草坪上、床上，都会有，但是我们作为训练集的图像中可能只出现了一个马路上的人的照片，那么当测试集中出现了一个人在室内的照片，可能模型就不认识。

由于我们的数据只是真实世界分布的一个采样，所以数据永远是不够了。这就涉及到了泛化能力，一个好的模型就具有更好的泛化能力，但是有时候数据不够往往是一些其他的网络上的技巧（dropout这种）弥补不了的。

所以这篇文章做的就是生成一些样本来弥补数据过少，数据多样性小的问题。这篇文章的主要一点是提出了我们生成的样本要符合真实世界的分布，例如一个人不可能就是没有借助的飞在天上。所以文章的框架增加了一个判别器来判断生成的数据是不是符合真实世界的分布，也就是说是不是符合常理的数据(真不真实)。这样来大家也都可以看出，这其实就是一个GAN网络。

这篇文章是基于Cut-Paste-Learn这篇文章之上的一篇文章。主要就是加了一个判别器来判断生成的数据是否是符合真实世界的分布。当然因为是通过GAN训练，那么生成器生成的就是以假乱真的数据了，而不是有监督的学习。因为作者说，如果引入了一些不符合真实场景的数据那么会造成过拟合。简单的理解就是这部分不符合常理的数据其实就是噪声，大家都知道噪声是会给模型带来负担的。

一般来说生成数据的方式主要有三种：1)图像合成，2)对抗生成，3)渲染。本文应该是结合了图像合成和对抗这两种方法。

2 数据合成

2.1 合成网络Synthesizer Network

文章中的核心思想就是这个网络。里面还有一个小技巧来避免过拟合这种合成的数据。

首先，合成网络不是我们想的那样输入两个图形然后自动输出一个图片，其实这个网络是输入两张图片然后预测一个2D affine transformations（二维刚性变换）的矩阵，这个矩阵是一个维度为6的向量，如下图所示（文章中没给，见Spatial Transformer Networks论文）：

在这里插入图片描述

在这里插入图片描述
这个网络结构如下：

在这里插入图片描述
感觉文章的图片画的不是很清晰，且参数共享那一块容易给人造成误解，所以重新画了一幅图，网络有部分是参数共享，但是又有部分是不进行参数共享的，结构和孪生网络相似。最终预测的就是一个变换矩阵的参数。具体设置如下：

在这里插入图片描述

2.2 合成数据

那么怎么将前景和背景合为一体呢呢，其实和Cut-Paste-Learn一样，把背景扣掉一块然后将前景放进去，其实说白了就是把前景贴到背景上，但是文章中给了一个故弄玄虚的公式说是叫做alpha-blending，其实就是贴图的方式。但是多了对图像做一个仿射变换以后叠加，再加上有一个判别网络来保证合成的网络是真实的。

如下图所示，上一行就是不真实（不符合真实世界的分布，人在天上飞）的数据，下一行就是合成的符合真实世界的分布的数据：
在这里插入图片描述