【扩散模型->人物合成】PIDM : Person Image Synthesis via Denoising Diffusion Model

在这里插入图片描述

论文地址:https://arxiv.org/abs/2211.12500

项目地址:https://github.com/ankanbhunia/PIDM(截至 22-12-23,未公布代码)

在这里插入图片描述

本文利用扩散生成模型和 OpenPose、人物图像作为条件,进行姿态迁移训练,同时可以用于服装迁移、风格混合、行人重识别等人物合成任务上。主要创新点如下:

  • 为了有效地建模外观和姿态信息之间的复杂相互作用,提出了纹理扩散模块(texture diffusion module)利用源和目标外观和姿态细节之间的对应关系,从而获得无伪影图像。
  • 在采样过程中,引入了解耦非分类器引导(disentangled classifier-free guidance)确保输出图像的风格和姿态分别与源图像的外观和目标姿态紧密对齐。

在这里插入图片描述

本文所提出的PIDM框架(如上图 a)采用由噪声预测模块HN纹理编码器HE组成的基于UNet的网络。其中纹理编码器HE对源图像xs的纹理图案进行编码,从不同层产生多尺度的特征表示Fs,并通过提出的基于交叉注意力的纹理扩散模块(TDB)将多尺度纹理模式注入到噪声预测模块HN中。

同时,为了加强xs和xp的条件信号,在采样技术中采用了Classifier-free guidance来实现解耦引导(如上图 b),具体做法是在训练过程中通过随机设置η%(实验中η=10)的样本的条件变量xp和xs为0,来学习条件和非条件分布, 从而使得θ(yt, t, ∅, ∅)更忠实地接近p(y0)。

数据集DeepFashion In-shop Clothes Retrieval Benchmark 和 Market-1501 数据集上进行实验。对于DeepFashion数据集,使用256×176和512×352图像训练模型。对于Market-1501使用128×64的图像。
在这里插入图片描述

上图显示了 PIDM 在姿态迁移任务上与其他 Baseline 的视觉对比。

在这里插入图片描述

上图显示了 PIDM 在服装迁移(a)和风格混合(b)上的结果。

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值