CVPR 2021 Oral | 周博磊团队提出SeFa：用无监督方法控制GAN

最新推荐文章于 2022-03-06 12:10:50 发布

Amusi（CVer）

最新推荐文章于 2022-03-06 12:10:50 发布

阅读量1k

点赞数

文章标签：计算机视觉机器学习人工智能深度学习 python

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

晓查发自凹非寺
来源：量子位（QbitAI）

现在，GAN不仅能画出二次元妹子，还能精准调节五官、表情、姿势和绘画风格。

而且在调控某个因素的时候，其他条件能尽量保持不变。

Closed-Form Factorization of Latent Semantics in GANs

论文：https://arxiv.org/abs/2007.06600

代码：https://github.com/genforce/sefa

这就是香港中文大学周博磊团队提出的SeFa（语义分解，Semantics Factorization），该论文最近入选了CVPR 2021（Oral）。

SeFa适用于PGGAN、StyleGAN、BigGAN和StyleGAN2等常见GAN模型，不仅对二次元妹子有效，甚至还能调控猫咪上下左右不同方向。

通过这种方法分离出映射矩阵的各个本征值，即可实现对不同图像元素的精准调控

更重要的是，SeFa无需对GAN生成的数据进行标注，它能自己找到这些元素变化对应的编码。也就说SeFa是一种无监督方法。

目前，SeFa相关代码已经开源。

周博磊教授团队的这一成果还得到了母校CSAIL实验室的转发。

无监督方法调节GAN

这些年，GAN在图像合成上取得了巨大的成功。如果想要更好的操控GAN，就需要正确识别其中语义。

但是，由于潜在空间的高维性以及图像语义的多样性，在潜在空间中寻找有效的语义非常具有挑战性。

现有一些基于监督学习的方法，通常首先对大量的潜在编码进行随机采样，然后合成大量图像，并使用一些预定义的标签对其进行注释，最后使用这些标记样本来学习潜在空间中的分离边界。

这种对大量GAN生成图片进行标注的方法，耗时耗力。

因此，作者没有直接利用合成样本作为中间步骤，而是直接研究了GAN的生成机制以解释其内部表示。

更具体地说，对于所有基于神经网络的GAN架构，都是将全连接层用作将输入潜在编码带入生成器的第一步。

这种变换实际上会滤除潜在空间中一些可忽略的因素，突显对于图像合成关键的因素。如果我们能够识别出这些重要的潜在方向，就可以控制图像生成过程。

SeFa对图像的操作，可以看做是将d维潜在空间中的对应向量z沿着n的方向进行移动。

而GAN还会将z映射到另一个m维空间的y。

最终，作者将这一问题转化为：

与其他方法对比

与现有的监督和无监督方法相比，SeFa方法能够更准确，更广泛地识别可解释的维度。而且该方法灵活通用，可适用于不同的GAN。

在下图中，SeFa（b）和无监督的GANSpace（a）、有监督的InterFaceGAN进行了定性对比。SeFa已经接近于有监督方法的效果。

和InfoGAN（a）对比发现，SeFa（b）对不同语义因素的分解程度更高，因为前者在变换人脸姿势时，发色发生了明显的变化。

SeFa不仅能处理GAN制造的图片，对真实照片也有效。利用之前周博磊团队提出的GAN反演方法，将真实照片反向投影到潜在空间，就能改变真实照片。

作者简介

这篇论文的第一作者是香港中文大学多媒体实验室的在读博士生Shen Yujun，本科毕业于清华大学。

他的研究方向是计算机视觉、深度学习、生成模型、网络解释、可解释人工智能（XAI）。

今年他已有3篇论文被CVPR 2021接收，其中两篇为Oral。之前他还在CVPR 2020上发表了2篇论文，在CVPR 2018上发表了1篇论文，总计发表了6篇CVPR。

论文的通讯作者是香港中文大学助理教授周博磊。

周博磊是MIT CSAIL实验室博士，他的研究涉及计算机视觉和机器学习，尤其是视觉场景理解和可解释AI系统。

Colab地址：
https://colab.research.google.com/github/genforce/sefa/blob/master/docs/SeFa.ipynb

上述论文和代码下载

后台回复：SeFa，即可下载上述论文PDF和代码

后台回复：CVPR2021，即可下载CVPR 2021论文和开源代码合集

点击下方卡片并关注，了解CV最新动态

重磅！CVer-GAN交流群成立

扫码添加CVer助手，可申请加入CVer-GAN方向 微信交流群，也可申请加入CVer大群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如GAN+上海+上交+卡卡），根据格式备注，才能通过且邀请进群

▲长按加微信群

▲点击上方卡片，关注CVer公众号

整理不易，请给CVer点赞和在看！

Amusi（CVer）

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2021 Oral | 周博磊团队提出SeFa：用无监督方法控制GAN

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达晓查发自凹非寺来源：量子位（QbitAI）现在，GAN不仅能画出二次元妹子，还能精准调节五官、表情、姿势和绘画风格...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。