精读Labels4Free: Unsupervised Segmentation using StyleGAN

最新推荐文章于 2022-11-25 23:59:09 发布

格里芬阀门工

最新推荐文章于 2022-11-25 23:59:09 发布

阅读量1k

点赞数 2

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_42578970/article/details/120705214

版权

深度学习专栏收录该内容

67 篇文章 6 订阅

订阅专栏

摘要

目前，在无监督分割领域，研究成果稀少，有关GAN的研究只有PSeg。PSeg通过使用合成图像和背景之间的相对抖动，来重新制订和训练GAN，使其在生成一张图片的同时生成其分割结果的mask，但代价是图象质量不佳。

本文在无监督的图象分割领域，提出了一种新的架构和一种将 StyleGAN分割成一个前景和背景网络的训练策略通过该方法，可以实现生成大量的，高质量的分割训练所需要的，带有图象和mask的数据。这些数据可以供其他模型进行后续的有监督学习。

同时，将真实图象投影到隐藏空间后，也可以对真实图象进行分割。

方法

框架

文章中，前景和背景生成器使用的网络均为StyleGAN2，对于StyleGAN2的详细介绍见本文：StyleGAN 架构解读（重读StyleGAN ）精细

文章假设，背景和前景没有特别强的联系，即使是从不同的图片中分别裁剪出一部分，拼接在一起，依然能骗过判别器。因此，想要让判别器分不出合成图像，那么对于前景和背景图像的分割就极为重要。而Alpha网络的性能，就决定了分割结果。

训练流程

直接选用预训练完毕的StyleGAN2作为两个生成器，冻结参数。只更新Alpha网络和判别器网络的参数。因为来自 LSUN-Object数据集的图象质量层次不齐，因此对截断值ψ进行限制，限定在[0,1]区间内，ψ越大，图像质量越差。

生成mask

而左边的为GAN2，右边的为至关重要的Alpha网络。GAN2中，每两个卷积层为一组，每组第一个上采样，第二个为不改变图象尺寸的卷积，从最开始的4*4一直到最终的1024*1024，总共有2*9个卷积层。Alpha网络通过1X1的卷积，从每个卷积层的输出中，提取对分割有用的通道。最终，通过判别器提供的信息，不断训练Alpha网络，使其能准确地分割每张前景生成器生成的图象。

生成背景

虽然背景生成器看似简单，但作者一开始直接使用预训练的StyleGAN生成背景时，可能会参杂前景。即使采用其他的数据集训练，判别器也会很轻易地分辨出哪张是GAN生成的图象。

作者提出了一种大胆的想法，可以找出对应背景特征的通道，并把其他通道设为0，具体做法是计算下面式子的梯度，找出这个式子在哪最大

$\left \| G(w,n)-x \right \|_{2}^{2}$

G为背景生成器最终输出，w为隐藏层变量，n为噪声变量，x为上采样块的输出，经过了缩放。最终，作者发现第一个上采样快对于这个式子的值最大，这说明第一个式子对于产生前景目标最为重要，也就是说对于产生背景最不重要，因此作者直接将第一个上采样块的输出设置为全0。

个人理解这个式子之所以能成功，是因为GAN生成的图像中，夹杂的只是部分前景目标，并不是以前景为主体。所以与最终图像相差越大的，含有的前景目标的信息也越多。将这些层的输出设为0，网络便会立马失去前景信息，只能生成背景图象。

实验结果

本文与有监督分割与无监督分割均作了比较。

有监督：与在 CelebA-Mask数据集上预训练的BiSeNet比较人脸分割能力；与在MS-COCO数据集上与训练过的 Detectron 2 Mask R-CNN Model比较物体分割能力。

无监督：与PSeg进行比较，比较两者生成的图象质量和mask的质量

有监督

上图为两个网络分割StyleGAN2生成图像的结果

上表为分割真实图象的结果。第一行为已有方法。第二行为将真实图象投影到StyleGAN2的隐藏空间后进行分割的结果，投影方法为括号内的PSP。第三、四行为用本文方法生成的图象训练出来的网络，所采用的backbone如括号内所示。

由于本文是无监督方法，因此在分割真实图象方面略逊于BiSeNet，但也以十分优秀。

上图为保留背景下的人脸编辑的结果，可以看到，本文方法提取出了背景后直接inpainting了整个背景图像。

上图为非人脸数据集真实图象上的分割结果。数据集采用的是LSUN中的马，猫和车三个子集。这一数据集有两大特点：一张图可能有多个前景目标，低截断值的图不一定易于分割。

无监督

生成人脸，以BiSeNet输出为GT时，两个无监督网络生成的mask的质量

生成猫，马和车，以BiSeNet输出为GT时，两个无监督网络生成的mask的质量

A : FFHQ ; B :LSUN-Cat ; C : LSUN-Horse ; D : LSUN-Car，在这四个数据集上，两个网络生成图像的FID值，FID越低，看起来就越像现实中得到的图片

消融实验

作者做了两个消融实验

第一个是拼接图象时，不使用Gbg生成的背景，而是将随机的现实照片作为背景，结果分割现实图片的能力大幅下降

第二个是训练时，只使用前景生成网络最后一个卷积层的输出训练网络，可想而知性能同样大幅度下降。

格里芬阀门工

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
精读Labels4Free: Unsupervised Segmentation using StyleGAN

摘要目前，在无监督分割领域，研究成果稀少，有关GAN的研究只有PSeg。PSeg通过使用合成图像和背景之间的相对抖动，来重新制订和训练GAN，使其在生成一张图片的同时生成其分割结果的mask，但代价是图象质量不佳。本文在无监督的图象分割领域，提出了一种新的架构和一种将 StyleGAN分割成一个前景和背景网络的训练策略通过该方法，可以实现生成大量的，高质量的分割训练所需要的，带有图象和mask的数据。这些数据可以供其他模型进行后续的有监督学习。同时...
复制链接

扫一扫

专栏目录