TediGAN:文本引导的多样化人脸图像生成和操作 (CVPR 2021)

TediGAN:文本引导的多样化人脸图像生成和操作 (CVPR 2021)

image-20210505201217686

code

本地pdf

paper外网地址

paper内网地址

1 Task

image-20210505202906830

2 Problems

分辨率低

3 Contributions

  • 我们提出了一个统一的框架,可以在给定相同输入文本的情况下生成不同的图像,也可以将文本与图像一起进行操作,允许用户交互编辑不同属性的外观。
  • 我们提出了一种将多模态信息映射到预训练样式的公共潜空间的GAN反转技术,在该潜空间中可以学习实例级的图像-文本对齐。
  • 我们引入多模态CelebA HQ数据集,由多模态人脸图像和相应的文本描述组成,以方便大家使用。

4 Methods

4.1 StyleGAN Inversion Module

  • 训练一个图像编码器,把真实的脸部图像映射到预训练的StyleGAN的潜在空间

image-20210506200240097

4.2 Visual-Linguistic Similarity Learning

学习视觉和语言之间的对应关系

  • 左:同一对文本和图像映射到潜在空间的w应该尽可能相似
  • 右:文本操作图像的过程

image-20210506202610940

image-20210506203951063

image-20210506204058927

image-20210506204037980

  • 与DAMSM相比,轻量级,易训练

4.3 InstanceLevel Optimization

实例级优化模块,精确地操作与描述一致的所需属性,同时重构无关的属性

image-20210507103004527

4.4 Control Mechanism

image-20210507135121263

4.4.1 Attribute-Specific Selection
  • 文本到图像生成和文本引导的图像操作统一到一个框架
  • 不同层的w代表不同的属性,被输送到生成器的不同层
  • 给定两个w( w c , w s w^c , w^s wc,ws ) 控制机制选择特定于属性的层,并通过部分替换 w c w^c wc的相应层来混合这些 w s w^s ws
  • w s w^s ws 是随机采样的潜在编码时是文本到图像生成;当 w s w^s ws 是由图像得到的潜在编码时是文本引导的图像操作
4.4.2 Supported Modality.
  • w s , w c w^s,w^c ws,wc 可以是sketch, label, image和noise,便于灵活的多模态图像生成
  • 控制机制为图像生成和操作提供了高可访问性、多样性、可控性和准确性
  • 支持连续操作和草图或语义标签描述的多模态生成
4.4.3 Layerwise Analysis
  • 较低分辨率的层( e . g . , 4 × 4 , 8 × 8 e.g.,4\times4,8\times8 e.g.,4×4,8×8)控制高级风格(如眼镜和头部姿态)
  • 中间层( e . g . , 16 × 16 , 32 × 32 e.g.,16\times16,32\times32 e.g.,16×16,32×32)控制发型和面部表情
  • 最后的层( e . g . , 64 × 64 到 1024 × 1024 e.g.,64\times64 到 1024\times1024 e.g.,64×641024×1024)控制配色方案和细粒度的细节
  • 11- 14层代表微特征或精细结构,如胡茬、雀斑或皮肤毛孔等,可视为随机变化

image-20210507142457465

5 Experiment Results

5.1 Multi-Modal CelebA-HQ dataset

  • 30000高分辨率脸部图像
  • 每个都有一个高质量的分割掩码,草图和描述性文本。

5.2 Baseline Models

  • image generation:AttnGAN, ControlGAN, DM-GAN, DFGAN
  • image manipulation: ManiGAN

5.3 Evaluation Metric

  • image quality: FID
  • image diversity: Learned Perceptual Image Patch Similarity (LPIPS)
  • accuracy
    • image generation:文本和图像的相似性
    • image manipulation: 通过对合成图像修改后的视觉属性是否与给定的描述保持一致以及是否保留与文本无关的内容
  • accuracy and realism使用user study评估,用户判断哪个更真实,哪个与文本更一致

5.4 Comparison with State-of-he-Art Methods

5.4.1 Text-to-Image Generation
  • 定量比较

image-20210507144645249

  • 定性比较
    • 文本中包含的一些属性并没有出现在生成的图像中,生成的图像看起来像无特征的绘画,缺乏细节。对多阶段生成高分辨率图像影响很大
    • 大多数现有解决方案的输出多样性有限,即使提供的条件包含不同的含义。例如,"has a beard"的胡子在长短颜色上都可能不同。

image-20210507144756383

  • 第一行:关键的视觉属性(女性、黑色长发、耳环和微笑)被保留,而其他属性,如发型、妆容、脸型和头部姿势,则表现出很大程度的多样性
  • 第二行图像说明了更精确的控制能力。保持代表脸型和头部姿势的层不变,并改变其他层

image-20210507152441908

  • 多样的高分辨率结果

image-20210507152755619

5.4.2 Text-Guided Image Manipulation
  • 定量比较,高质量,与文本描述更一致,保留文本无关内容

image-20210507154128502

  • 定性比较
    • 添加耳环,改变女性的脸型和发型,我们的方法完成了这个困难的案例,而ManiGAN并没有产生所需的属性。
    • 最后两列来自其他数据集,说明TediGAN在其他图像上也能生成很好的效果

image-20210507154419226

5.5 Ablation Study

5.5.1 Instance-Level Optimization
  • b 尽管两者都保留了identity,但可选的实例级优化提供了一种不确定的方法来相应地优化最终结果

  • c 保留了原始图像的所有属性,足够进行文本到图像生成,因为没有保留identity

  • d 根据文本操作图像,不应该改变无关属性尤其是一个人的identity

image-20210507155342464

5.5.2 Visual-Linguistic Similarity

有时可能导致属性解纠缠不足和图像-文本对齐不匹配

image-20210507161531390

5.5.3 Potential Issue with StyleGAN
  • 文本操作图像时,无关属性可能改变。一些面部属性在W空间依然纠缠在一起
  • StyleGAN的另一个固有缺陷是,它的一些属性,如帽子、项链、耳环,在潜在空间中没有很好地体现出来。
  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
CVPR2021计算机视觉和模式识别领域的一个重要国际会议,轻量化网络是其中一个重要的研究方向。随着移动设备的普及和计算能力的提升,人们对于在资源有限的设备上进行高效率的计算的需求越来越大。因此,轻量化网络的研究成为了当前的热点之一。 CVPR2021上展示了许多针对轻量化网络的研究成果。这些研究工作主要围绕如何在计算资源有限的条件下减小模型的计算量和参数量。具体而言,主要包括以下几个方面的内容: 首先,研究者们提出了一些新的网络结构设计方法,以减小模型的计算量。这些方法通过剪枝、裁剪、分组卷积等方式对模型进行优化,减小模型的计算复杂度,同时保持模型的性能。 其次,研究者们还提出了一些模型压缩和加速的方法,以减小模型的参数量。这些方法包括量化、蒸馏、低秩分解等技术,通过对模型参数进行优化,从而减小模型的存储需求和计算复杂度。 此外,研究者们还针对特定任务提出了一些轻量化网络的解决方案。例如,在目标检测和图像分割等任务上,他们设计了一些轻量化的网络结构,以提供高效率的计算和准确的结果。 总的来说,CVPR2021上的轻量化网络研究集中在如何降低计算和存储开销的问题上。这些研究成果有力地推动了计算机视觉和模式识别领域在移动设备和边缘计算等资源有限环境中的应用和发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值