FineGAN:细粒度对象生成和发现的无监督层次解耦

摘要

  我们提出一个新颖的无监督GAN框架FineGAN,它能够解耦背景、对象形状和对象的外观来层次地生成细粒度对象分类的图像。为了不使用监督来解耦这些变量,我们的核心思想是使用信息原理来将每个变量和一个隐编码相关联,用一个特定的方法来训练这些编码之间的关系,以诱导需要的层次。通过大量的实验,我们证明FineGAN达到了期望的解耦,生成细粒度类别的鸟类、狗和汽车的真实和多样的图像。利用FineGAN的自动学习特征,我们还对真实图像进行聚类,作为解决无监督细粒度对象类别发现这一新问题的首次尝试。我们的code/模型/demo放在这个github链接

1 Introduction 

  考虑上面这些图片:如果给定一个任务,将任意图像分为一组,作为人类,我们可以轻松地说出A、B和C、D不会被分为一组,因为他们有完全不同的背景和形状。但是C和D呢?他们共享相同的背景,形状和大概的颜色。然而,经过仔细观察,我们发现甚至C和D都不能被分为一组,因为C的喙是黄色的,尾巴有大大的白色斑点,而D的喙是黑色的,它的尾巴有细的白色条纹。这个例子证实,聚类细粒度的对象类别不仅需要对背景、形状和外观(颜色/纹理)进行解耦,还需要自然地以一种分层的方式进行。

  在这篇文章的工作中,我们的目标是开发一个模型,它可以做到:不使用任何手动的细粒度标注,通过层次解耦背景、对象的形状和外观,对细粒度对象类别进行建模。特别地,我们在解决无监督细粒度对象聚类(或称“发现”)这个新问题上进行首次尝试。尽管无监督对象发现和细粒度识别都已经有了很长的历史,在无监督对象分类发现上的先验工作仅仅关注聚类入门级的类别(例如:鸟类、汽车、狗),而现有的细粒度识别工作仅仅关注有监督的环境,即提供ground truth的细粒度类别标注。

  为什么无监督发现会是这样一个困难的问题?我们有两个关键的动机。第一,细粒度标注需要相关领域的专家。因此,总体的标注过程是非常昂贵的,并且不能使用标准的众包技术,这限制了能够被收集到的训练数据的数量。 第二,无监督学习使数据中那些没有被标注者标注过的隐结构的发现变得可能。例如,细粒度图像数据集常常有固有的层次组织,类别可以首先基于一个特征(例如形状)分组,接下来再基于另一个(例如外观)进行区分。

  主要Idea:我们假定一个有“层次地生成细粒度细节图像”能力的生成式模型,也可以对真实图像的细粒度分组有用。因此,我们提出FineGAN,一个新颖的层次无监督生成对抗网络框架,它可以生成细粒度类别的图像。

  FineGAN通过层次地生成和缝合一个背景图,一个捕捉对象的一个变量的父图像,和一个捕捉另一个变量的子图像,生成一张细粒度的图像。为了不使用任何监督地解耦这个对象的两个变量,我们使用信息论,和InfoGAN相似。特别地,我们强制以下两种互信息是高的:(1)父隐编码和父图像,(2)子隐编码,由父隐编码训练得出,和子图像。通过在父和子隐编码关系上的强制约束(特别地,通过对子编码进行分组,每一组有着相同的父编码),我们可以诱导父和子编码来分别捕获对象的形状和颜色/纹理细节。见图1。这是因为在许多细粒度数据集中,对象常常在相近的形状上有不同的外观。(例如‘Yello-billed Cuckoo’和‘Black-billed Cuckoo’,他们分享相同的形状,但是它们的喙的颜色和翅膀纹理是不同的)

 图1.FineGAN解耦背景、对象形状(双亲),和对象外观(孩子)来层次地生成细粒度对象,不使用遮罩或细粒度标注。

  此外,FineGAN自动地在父与子阶段生成遮罩,可以帮助训练隐编码,使它们专注对应的对象factor,且将生成的图像跨阶段拼接在一起。最终,通过这个无监督层次图像生成过程学习到的特征可以被用于将真实图像聚类到它们的细粒度类别。

 Contributions:我们的工作有两个主要的贡献:

  (1)我们介绍了FineGAN,一个学习层次地生成细粒度对象类别的背景、形状和外观的无监督模型。通过多种质量评估,我们证实了FineGAN有能力精确地解耦背景、对象形状和对象外观。更多地,在三个benchmark数据集上的质量评估(CUB,Stanford-dogs,Stanford-Cars)证实了FineGAN在生成真实和多样图像上的强大。

  (2)为了无监督细粒度对象类别的发现,我们使用FineGAN学习到的解耦表征来聚类真实图像。 它产生显著比当前最先进的无监督聚类方法(JULE和DEPICT)更加精确的细粒度的聚类。据我们所知,这是在无监督环境下聚类细粒度类别的首次尝试。

2 Related Work

 这里列举了四个方面的相关工作,分别是细粒度类别识别、视觉对象的发现和聚类、解耦表征的学习、GANs和stagewise图像生成 

3 Approach

  令\chi =\left \{ x_{1},x_{2},...,x_{n} \right \}为一个包含无标签细粒度对象类别图像的数据集。我们的目标是学习一个无监督生成式模型,FineGAN,产生和真实数据分布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值