【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis

最新推荐文章于 2024-04-25 14:38:32 发布

EasyCV-Ellis

最新推荐文章于 2024-04-25 14:38:32 发布

阅读量625

点赞数 4

分类专栏：论文分享

本文链接：https://blog.csdn.net/weixin_39323037/article/details/115653191

版权

论文分享专栏收录该内容

15 篇文章 1 订阅

订阅专栏

注：拉到最后有视频版~

论文地址：https://genforce.github.io/higan

这次给大家分享一篇做场景编辑的文章，作者是周博磊老师组的杨策元，中的是 IJCV2020

我会从这五个方面开始我的讲解

背景

首先是背景，背景就是 GAN 在图片合成领域表现优异

动机

动机是现在目标检测的解释性工作比较多，对于 GAN 这种生成模型的解释性工作还比较少

目标

研究目标是探究下语义层级信息在 layer-wise 输入的 GAN 模型中的表现，这里可以看到两个图，左图是本文章主要探究的几个语义属性，比如 layout（格局），category（种类）,attribute 和 color；右图是不同类型的 GAN，一般的 GAN 都是直接输入网络，但是 StyleGAN 的变量是 layer-wise 进去的

方法

先看下本文定义的多种语义，对于 bedroom 和 living room 这两种场景，有以下的定义: attribute 就是用不同的分类器分出来的， layout 是提取墙的线得到的，object 是场景分割得到的

具体的方法就是 SVM 和 Re-score，SVM 我已经说过很多次，就是在 GAN 的 latent space 中，每个点对应着 image space 中的一张图片，同时也对应着 semantic space 中的多种语义。Sample 一定量的图片后，用预训练好的分类器去获取他们对应的不同语义，接着对于某个属性，用一个 SVM 在 latent space 中学一个超平面，得到支持向量 n，这就是这个模型中的语义向量，和 InterfaceGAN 的方法几乎一样，不过 InterfaceGAN 处理的对象是 face，face 是容易定义的，而本文处理的是 scene，scene 的变化是很大的。

在获取了语义向量后，我们用 Re-score 来衡量这个语义方向，也就是说看编辑前后图片的语义变化程度，公式在下面，K 是样本数

验证完毕后，文章有三种编辑的手段，第一张很简单，就是在 latent space 中向语义的方向推，第二种是向两个语义方向的加和方向推，第三种是在推的时候加一点随机扰动

实验

然后来看实验，比如对于 layout，object 这几类属性，正负样本是怎么分的，layout 就是看支撑墙的中点在左边还是右边；文章做实验用到的模型列在下面

首先看下出现的语义层级，对于本文用到的网络，我们在 y 的层面而不是 z 的层面，做 rescore 来研究，探究某个层级后在整体效果中的占比，可以看到 layout，object 和其他属性的峰值（即变化最大）都对应着不同的层级，user-study 也证明了这一点

然后看编辑实验，对不同的属性，都可以做相当定向的编辑，还能结合起来做编辑，效果都很不错

当我们把 living room 的 scene 用语义向量推到 bedroom，再推到 dining room，跟踪一些 object 的像素的变化，可以看到这样的图。出现这样的现象的原因，是因为某些 object 是某个 scene 独有的，因为床，沙发，椅子是 bedroom，living room 和 dining room 的特有物件。有这个现象，我们就可以做特定的编辑，也不用像其他 cgan 的那种 label 方式

场景的编辑肯定依赖于训练的数据，故这里分析了一下训练数据的分布，在 bridge 的场景，sunny 占主要的变化，其他场景也有对应的属性，这些属性都是这个场景独有的

回顾下之前的编辑，对于不同的语义编辑，可以看到同时编辑的效果是可以把两个语义同时加上去的，随机扰动的编辑可以加上让语义更加丰富

消融实验主要为了证明自己的方法的有效性，先看第一个图，在 bedroom 场景中，这几个属性一直保持接近 1 的值，这说明这几个属性是没法区分的，我们的方法用 rescore 可以把这些给去掉；第二个图，在 SVM 分类效果的指标上来看，几乎所有的属性都被完美分开，无法区分出主次，但我们的方法 rescore 可以把找出变化最明显的属性