Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis阅读笔记

连更!!

0 Abstract

  • 先前的姿势引导图像合成方法简单的将人的外观与目标姿势进行对齐,这容易导致过拟合,因为缺乏对source person image的high-level semantic understanding;
  • 文章开发了一种新的训练范式:仅基于图片,控制pre-traind text-to-image diffusion model的图像生成过程;
    [图片]

1 Introduction

  • GAN-based方法不够稳定,因此表现不佳;
  • 现有的diffusion-based方法缺乏对人像的high-level semantic understanding,容易导致过拟合与低泛化性;
  • 本文提出了Coarse-to-Fine Latent Diffusion (CFLD)方法:
    • 打破传统范式:使用文本prompt(高度语意化与信息深度)控制SD model的图片生成过程;
    • perception-refined decoder:对细粒度的外观信息进行解耦,通过类似QFormer结构从source image学习外观信息得到一组prompt token(替代了text prompt,作为粗粒度prompt,关注人像的常规语意);
    • hybrid-granularity attention module:将多尺度细粒度外观信息作为bias term增强粗粒度prompt,控制纹理细节。

2 Related Work

3 Method

[图片]

3.1 Preliminary

  • 基于text-to-image latent diffusion model(例如Stable Diffusion):
    • VAE:原始像素空间和低维潜在空间之间的映射
    • UNet-based prediction model:对潜在空间特征进行循环去噪
      [图片]

3.2 Coarse-to-Fine Latent Diffusion

  • 训练过程使用到的数据:原始pose、原始image、目标pose、目标image
  • Architecture:
    • Hs:image decoder,例如swim-transformer,对原始image进行解码;
    • HD:Perception-Refined Decoder,于image特征交互学习一组tokens,作为condition;
    • HA:Hybrid-Granularity Attention module,将image encoder的多尺度特征映射为偏置项;
    • Hp:pose adapter,由一些ResNet blocks构成,生成的特征被加到Unet(不需要微调);
  • Perception-Refined Decoder:
    • 人像有一些常见特征,例如body parts、age、gender、hairstyle、clothing…
    • 这些常见特征启发本文通过一组固定的learnable queries去表征人像的语意,并作为SD的conditional embedding;
  • Hybrid-Granularity Attention:
    • 为了控制生成图片的纹理细节;
    • 在上采样block中,将多尺度图像特征编码(K transformer layers with a zero convolution)为cross-attention中Q值(noise image)对bias:
      [图片]

3.3 Optimization

  • 重建损失(重建原图):
    [图片]

  • mse损失(生成目标图像):
    [图片]

[图片]

  • 噪声采样:随机高斯噪声
  • 积累无分指导增强(训练过程中一定概率丢弃源图像或者目标pose):
    [图片]

4 Experience

4.1 Quantitative Comparison

  • 高精度
    [图片]

  • 高效
    [图片]

4.2 Qualitative Comparison

[图片]

4.3 User Study

  • 招募用户进行判别:
    • R2G:真实图片被认为是生成的;
    • G2R:生成图片被认为是真实的;
    • Jab:每个志愿者都被要求从不同方法生成的图像中选择与地面真相最匹配的(+34.9);
      [图片]

4.4 Ablation Study

  • B1:其他diffusion-based方法中,将多尺度外观信息作为条件;
  • B2:使用CLIP为源图像生成描述性粗粒度提示;
  • B3:Ours - bias;
  • B4:Ours - bias + Q(开放可学习);
  • B5:去除PRD模块,只使用Swin Transformer的特征作为条件;
    [图片]

[图片]

  • 可视化:
    [图片]

4.5 Appearance Editing

  • 风格迁移:将参考图片感兴趣的区域(要迁移的服饰)mark出来作为一个二值mask,即m,加入到noise prediction process(保留原图的脸,加入参考图的衣服):
    [图片]

  • 风格插值:支持粗粒度提示和细粒度外观偏差的线性插值
    [图片]

  • 15
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值