干货!从统一判别模型和生成模型的角度来做表征学习

点击蓝字

62d3f9f0e90e38cc57abb4839f2bca11.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

生成对抗网络(GANS)通过学习数据的底层分布来加强图像合成的质量。然而,从图像生成任务中学习到的特征如何适用于其他视觉任务仍鲜有探索。在这项工作中,我们证明了合成图像任务可以带来层次化的视觉特征,并且这些特征可以很广泛的迁移到其他视觉任务上。具体地说,我们将预先训练的StyleGAN生成器作为一个学习的损失函数,并利用它的分层表示来训练一个层次编码器。我们把编码器产生的视觉特征称为生成层次特征(GH-Feat). GH -Feat具有很强的可移植性,我们在很多生成任务和识别任务上都对其性质进行了探索。大量的定性和定量实验结果证明了GH-Feat的良好性能。除了从预训练的生成器里面学习到层级性的特征之外,我们还探究了如何利用更强的识别任务来提高生成器的生成能力,通过这两个不同的角度来进一步统一识别模型和生成模型的特征表达。

本期AI TIME PhD直播间,我们邀请到香港中文大学博士生徐英豪,为我们带来报告分享——《Learning Deep Representations by Unifying Discriminative and Generative Models》。

1db53b644cfc7d4dc4856cb5fa2de8b2.png

徐英豪:

香港中文大学信息工程系多媒体实验室(MMLab)二年级博士生。2019年毕业于浙江大学,本科期间曾在UCSD和微软亚洲研究院视觉计算组进行科研实习。其研究兴趣包括视频理解、生成模型以及视觉感知的结构化表征。

个人主页:https://justimyhxu.gthub.io/。

01

 背  景 

根据模型对数据建模的方式可以将模型分为判别模型(Discriminative model)和生成模型(Generative model)。我们使用X表示图像输入数据,y表示representation,有图像推导类别的我们称为判别模型,如下图左侧所示;由representation推导出图像的我们称为生成模型。如下图右侧所示,在生成对抗网络(GAN)中,这里的representation指的就是一个隐空间(latent space),通过将生成模型和判别模型进行对抗学习,提高生成模型拟合输入数据分布的能力。

3ae04d170e500fdf86dd420efc3e805e.png

生成模型和判别模型之间存在一些联系,之前的工作并没有将两类模型很好的联系起来,本文同时结合生成模型和对抗模型来学习一些深度特征表示,为下游任务打下良好基础。

表示学习(representation learning)在深度学习中是一个比较重要的方面,其采用模型自动学习数据的隐式特征。目前的表示学习往往应用于图像分类任务来获取图像高级语义特征,但还有其他视觉任务也需要表示学习的工作支持,比如给定一张图片,计算图像亮度,或者估计室内场景布局等。那如何根据不同级别的视觉任务来获取不同层次的representation呢?

c401a25cbc108ec837b22429d442be65.png

目前已经证实StyleGAN在不同层的特征控制的语义是不同的,比如下图中,top层控制卧室的结构信息,中间层控制场景中物品(如台灯)的形状等,底层控制场景中不同物品的颜色。但是StyleGAN的生成器是为了生成不同风格的场景而生,它只能通过采用获得很多图片,但无法给定一张真实图去推断其特征,也就是说缺乏inference能力,因为如果拥有这种能力StyleGAN就能够根据不同层级的特征完成更多类型的任务。

fa457575093cb820af4d813424c29e05.png

02

 方  法 

(1)从生成模型中学习判别的representation

本文提出一个GH-Feat方法,实现一个encoder,抽取StyleGAN学到的知识。首先我们使用预训练的StyleGAN作为一个decoder,自己训练一个encoder,将encoder生成的representation在使用StyleGAN进行解码得到一张图片,在训练时引入了一个判别器,从而训练得到一个拥有StyleGAN推理能力的encoder。

25caa184015aa3379485376118542fad.png

(2)结合判别模型来提高生成模型

通常的GAN模型损失函数包含判别器损失和生成器损失,判别器需要区分生成器的结果是真是假,生成器需要生成一张判别器难辨真假的图片。因此生成器对判别器的判别能力是高度依赖的,如果判别器没有被充分训练,那GAN模型的性能就会受到影响。因此本文希望通过提高判别器的判别能力,进而提高生成模型的性能。

下图是本文提出提高判别器判别能力方法——InsGen的整体框架,在训练判别器过程中,除了计算判别图片真伪的loss,还要计算生成图片和真实图片中每个实例的loss;在训练生成器的时候,同样需要加入一个Contrastive loss,要求生成器尽可能去区分生成的合成图。

f0fa20d84bded90e4fc909f8c9d3551f.png

03

 实  验 

(1)从生成模型中学习判别的representation

首先,我们对之前提到的亮度估计、布局估计两个视觉任务应用不同层的特征进行实现,结果显示较高层次特征对亮度估计任务更友好,较低层次特征对布局估计更友好,这也证明了representation的层次属性。

d8c781f9d1b4541f791e55400e67ad4d.png

本文对GH-Feat的线性分类中的表现进行了实验,如下图,在MNIST数据集上GH-Feat达到了最优性能,在ImageNet数据集上,GH-Feat在模型复杂度远小于BigBIGAN的情况下,性能没有域器拉开较大差距。

3f50af3f23e0fb257e14f27bd9776be5.png

在不同数据集上的迁移学习上,GH-Feat也取得了最优的性能表现。

77f1ce109f120db143216c93fda593a8.png

(2)结合判别模型来提高生成模型

数据集:FFHQ、AFHQ

实验结果:

下图是在FFHQ数据集上的表现,在不同数量的数据上,InsGen方法的表现都说最好的。

157a8a19469dd4c8306eb54d997c3f5f.png

下图实在AFHQ数据集上的表现,图片是生成的效果图,可以看出InsGen生成的图片效果非常逼真。

a2385d20aeff01020820be54c6cfbf77.png

点击“阅读原文”,即可观看本场回放

整理:爱 国

审核:徐英豪

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至min.gao@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

1d0a0f7e7ae688074f781411391b78d8.png

更多资讯请扫码关注

f905937c51a893947bd451106103eab0.png

我知道你在看

694f7a77ca771dac783fc6ef1a80da80.png

点击“阅读原文”查看精彩回放

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值