CVPR2022-SemanticStyleGAN

6 篇文章 0 订阅

这是一篇来自CVPR2022关于GAN的新作:SemanticStyleGAN - Project Page

文章效果惊艳,引入了语义图进行解耦,很有新意。

目录

摘要

1、介绍

2、相关工作

latent space

Compositional Image Synthesis

 Layout-based Generators 

3、方法(看原文吧,xdm)

1、局部生成器

2、Fusion

3、Render

4、判别器

4、效果 

摘要

stylegan为下游生成任务提供了promising prior models,但是stylegan的the latent codes是全局的(如下图,stylegan中是latent z是经过Normalize 和FC 层得到的)。这并不能很好对生成图像进行 a fine-grained control。本文提出semanticstylegan是model local semantic parts separately,重点放在生成器的改进上(往下看,其实判别器也做了进步)。实现了符合latent z对应的structure and texture(文章实验部分对这里做了可视化,看着图感觉解的挺好)。后面就是吹自己做的好了


1、介绍

首先指出在gan的生成是从latent space中random code开始的,说出传统gan不可控。说stylegan的generated image is conditioned on a set of coarse-to-fine latent codes。但是这些latent code任然很混淆(确实)。

作者说了以下两种解决方式

1、by learning a linear boundary or a neural network in the latent space of StyleGAN

2、to train a new GAN model from scratch by introducing additional supervision or inductive biases.

紧接着指出,本文的解耦是从语义mask入手的。

2、相关工作

latent space

1、manipulate the latent space of a pre-trained GAN network:trains a attribute model

2、learn a GAN with more disentangled latent space using additional supervision

Compositional Image Synthesis

这段自己看原文吧

 Layout-based Generators 

1、a semantic segmentation mask

2、a sketch image

nips2021的editgan也是语义生成,可以对比一下。作者表明:we build a semantic-aware generator that directly associates different local areas with latent codes, these codes can then be used to edit both local structure and texture.

这篇文章确实不一样,别人解耦的属性都是直接喂入网络,这篇文章解耦后再输出feature map和pseudo-depth

3、方法(看原文吧,xdm)

 网络架构。我们来看看怎么得到feature map 和pseudo-depth两个参数

 这里的自问自答挺有意思的:

 问答2挺有意思的,使用了双分支判别器来监督image和mask

1、局部生成器

这里的render输出也是两个,image和对应的mask

局部生成器也就是上面的ppt内容,这里傅里叶p代表位置信息是引用自Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains

2、Fusion

1、首先通过pseudo-depth生成mask

2、作为网络R的输入。公式虽然是这样,但m微调了。这里为什么不用m直接作为f的融合,原文也说到了

3、Render

渲染器和stylegan的生成器结构类似,做了微调。原文有

还说明了Render除了输出RGB图像和输出mask

4、判别器

4、效果 

 这里说傅里叶操作特征融合:(Fourier feature是position encoding,训练的时候时候是固定的(可以看作是stylegan2中的constant input),但测试的时候可以改变对象的位置大小,stylegan3也用到了这种input)

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
CVPR 2022是计算机视觉和模式识别领域的顶级会议,而多模态研究是其重要的研究方向之一。多模态处理涉及处理和融合来自不同感知模态(例如图像、语音、文本等)的信息,以提高对现实场景的理解能力。 在CVPR 2022多模态方向的研究中,一些关键的趋势和话题将得到关注。首先,基于深度学习的多模态方法将继续发展,因为其在处理多模态数据中的高级特征表示方面取得了显著成果。这些方法使用强大的神经网络架构,能够跨不同感知模态获取数据并实现融合。此外,对于多模态研究的探索还将进一步推动更加复杂和深层次的网络设计,以实现更好的融合效果。 其次,跨模态学习也是CVPR 2022多模态研究的重要方向之一。这项研究旨在利用不同模态之间的共享知识,通过迁移学习和领域自适应等技术,从一个模态中的标记数据中学习到其他未标记模态的有效表达。这对于那些有限标记数据的模态研究任务非常有价值。 最后,CVPR 2022多模态方向还将关注各种真实应用场景中的挑战和问题。例如,多模态医学图像处理和分析领域的研究,可以辅助医生进行更准确的诊断和疾病检测。另外,多模态文本和图像生成方面的研究,也能够推动现实世界中的创造性设计和内容生成。 总之,CVPR 2022多模态方向的研究将继续推动计算机视觉和模式识别领域的发展。通过深度学习、跨模态学习以及应用于不同领域的研究,我们可以期待在多模态数据处理和融合方面取得更多突破和创新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值