TLGAN

描述一张图片对于人来说是一个很简单的事情。在机器学习中这个任务是一个通过提取整整进行分类或者回归的问题,当前有很多的算法在物体识别和物体检测领域已经超过了人类。

然而从另一个方面来说,通过描述来生成一张真实的图片是非常困难的事情,在机器学习领域这是一个生成任务,这种任务比判别任务更加具有挑战性,主要是因为,我们需要从input中获取更多的信息来生成图片。

我们所做的工作是透明化lattent space gan,将给予现有的GAN网络新的特性。

首先给出GAN网络随机生成与控制特征生成的GAN对比如下

早起的GAN的工作中,有很多的优秀模型,但是这些优秀模型并不能人为的去控制他们生成图像如何改变,在进一步的研究中,一些可以应用合成和多种变化的网络开始出现。它们主要分成两类,风格转化和条件生成。风格转化模型又一个缺陷就是,每编辑一种风格就需要训练一个模型。条件生成也有缺点,它是根据图像以及带特性的标签训练而成,如果想加入新的特征那么就需要重新训练一下GAN,这是一个很浪费时间和资源的东西。

本文中的TL-GAN解决了这个问题,可以让使用者微调一个或者多个特性,使用单一的网络,微调特征所用的时间较短大概只有小于一个小时。

我们主要是对nvidia的pg-GAN为基础做实验,pg-GAN会生成1024像素的图片,然后这个图片中的特性是受到512维度的向量控制的,如果我们可以理解这512维度的向量空间我们就能够完成控制生成器输出的特性。

通过对预训练PG-GAN的大量实验,我们发现了向量空间的两个特性:

  1. 空间是稠密的,也就是所绝大数的点在空间能够生成合理的图像。
  2. 空间是连续的,这就意味着使用潜在空间的两个点插值,可以实现对应图像的平滑转移。

对于上述的结论可以直观的认为,在潜在空间中存在代表图像特征的方向,如果真的是这样的话,那么使用单一向量直接控制生成的过程称为了可能。

为了挖掘出这些特征轴,我们使用的方法是基于(z, y)数据训练一个模型。其中z表示latent code, y表示图像的特征标签。但是目前我们没有这样的数据。

第一种方法是,根据真实图像计算z_code,但是GAN并不存在一种简单的可逆方法,是得x_real可逆成zcode,这个方法变得十分困难。

第二种方法是,使用z 生成图像,但是问题在于生成的图像并没有打标签。

第三种方法,是本文开创性使用的方法,分裂的特征提取器。首先训练一个y = F(x)使用打标签的真实数据。然后将这个特征抽取模型与原始的生成模型耦合,那么我们就能够得到了,成对的特征。然后使用成对的特征做回归,即可。

上图展示了TL-GAN的结构

  1. 选择一个训练好的GAN模型。
  2. 选择一个训练好的特征提取器或者自己训练一个。
  3. 使用生成器耦合特征提取器,产生成对的(z, y)
  4. 使用一个线性模型做回归
  5. 然后对一个向量,只在单独的特征中动他,看一下生成图像的变化。

经过大量实验验证效果还不错

分离特征轴

上面的初始方法是有一些缺陷的,就是特征之间的冗杂,比如为了减少胡子,但是出来的图像更加的女性化,这主要归因于自然界中胡子和女性的相关性,同样的特性也在卷发和发际线特性之间发生。

为了解决这个问题,我们直接使用了线性代数的知识,将相关的特征,正交化,

 

 

结语

一般来说,模型的好坏依赖于数据集合,当使用的是少量的数据集合的时候那么生成模型只能代表人类中一个很小的子集合。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值