精读Labels4Free: Unsupervised Segmentation using StyleGAN

摘要

        目前,在无监督分割领域,研究成果稀少,有关GAN的研究只有PSeg。PSeg通过使用合成图像和背景之间的相对抖动,来重新制订和训练GAN,使其在生成一张图片的同时生成其分割结果的mask,但代价是图象质量不佳。

        本文在无监督的图象分割领域,提出了一种新的架构和一种将 StyleGAN分割成一个前景和背景网络的训练策略通过该方法,可以实现生成大量的,高质量的分割训练所需要的,带有图象和mask的数据。这些数据可以供其他模型进行后续的有监督学习。

        同时,将真实图象投影到隐藏空间后,也可以对真实图象进行分割。

方法

框架

        文章中,前景和背景生成器使用的网络均为StyleGAN2,对于StyleGAN2的详细介绍见本文:StyleGAN 架构解读(重读StyleGAN )精细

        文章假设,背景和前景没有特别强的联系,即使是从不同的图片中分别裁剪出一部分,拼接在一起,依然能骗过判别器。因此,想要让判别器分不出合成图像,那么对于前景和背景图像的分割就极为重要。而Alpha网络的性能,就决定了分割结果。

训练流程

        直接选用预训练完毕的StyleGAN2作为两个生成器,冻结参数。只更新Alpha网络和判别器网络的参数。因为来自 LSUN-Object数据集的图象质量层次不齐,因此对截断值ψ进行限制,限定在[0,1]区间内,ψ越大,图像质量越差。

生成mask

而左边的为GAN2,右边的为至关重要的Alpha网络。GAN2中,每两个卷积层为一组,每组第一个上采样,第二个为不改变图象尺寸的卷积,从最开始的4*4一直到最终的1024*1024,总共有2*9个卷积层。Alpha网络通过1X1的卷积,从每个卷积层的输出中,提取对分割有用的通道。最终,通过判别器提供的信息,不断训练Alpha网络,使其能准确地分割每张前景生成器生成的图象。

生成背景

虽然背景生成器看似简单,但作者一开始直接使用预训练的StyleGAN生成背景时,可能会参杂前景。即使采用其他的数据集训练,判别器也会很轻易地分辨出哪张是GAN生成的图象。

作者提出了一种大胆的想法,可以找出对应背景特征的通道,并把其他通道设为0,具体做法是计算下面式子的梯度,找出这个式子在哪最大

\left \| G(w,n)-x \right \|_{2}^{2}

G为背景生成器最终输出,w为隐藏层变量,n为噪声变量,x为上采样块的输出,经过了缩放。最终,作者发现第一个上采样快对于这个式子的值最大,这说明第一个式子对于产生前景目标最为重要,也就是说对于产生背景最不重要,因此作者直接将第一个上采样块的输出设置为全0。

个人理解这个式子之所以能成功,是因为GAN生成的图像中,夹杂的只是部分前景目标,并不是以前景为主体。所以与最终图像相差越大的,含有的前景目标的信息也越多。将这些层的输出设为0,网络便会立马失去前景信息,只能生成背景图象。

实验结果

本文与有监督分割与无监督分割均作了比较。

有监督:与在 CelebA-Mask数据集上预训练的BiSeNet比较人脸分割能力;与在MS-COCO数据集上与训练过的 Detectron 2 Mask R-CNN Model比较物体分割能力。

无监督:与PSeg进行比较,比较两者生成的图象质量和mask的质量

有监督

图1

 上图为两个网络分割StyleGAN2生成图像的结果

 上表为分割真实图象的结果。第一行为已有方法。第二行为将真实图象投影到StyleGAN2的隐藏空间后进行分割的结果,投影方法为括号内的PSP。第三、四行为用本文方法生成的图象训练出来的网络,所采用的backbone如括号内所示。

由于本文是无监督方法,因此在分割真实图象方面略逊于BiSeNet,但也以十分优秀。

上图为保留背景下的人脸编辑的结果,可以看到,本文方法提取出了背景后直接inpainting了整个背景图像。

 上图为非人脸数据集真实图象上的分割结果。数据集采用的是LSUN中的马,猫和车三个子集。这一数据集有两大特点:一张图可能有多个前景目标,低截断值的图不一定易于分割。

无监督

生成人脸,以BiSeNet输出为GT时,两个无监督网络生成的mask的质量

 生成猫,马和车,以BiSeNet输出为GT时,两个无监督网络生成的mask的质量

  A : FFHQ ; B :LSUN-Cat ; C : LSUN-Horse ; D : LSUN-Car,在这四个数据集上,两个网络生成图像的FID值,FID越低,看起来就越像现实中得到的图片

消融实验

作者做了两个消融实验

第一个是拼接图象时,不使用Gbg生成的背景,而是将随机的现实照片作为背景,结果分割现实图片的能力大幅下降

第二个是训练时,只使用前景生成网络最后一个卷积层的输出训练网络,可想而知性能同样大幅度下降。

 

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值