HumanGAN: A Generative Model of Human Images(CVPR2021)

HumanGAN是一种综合解决人体图像条件生成、姿势转换及部分采样的方法。模型利用DensePose提取姿势,通过编码器和解码器在变分框架下实现姿势与外表的解耦。在训练过程中,采用重建、GAN和先验损失进行优化,允许在推理时对特定部位进行采样和姿势变换。
摘要由CSDN通过智能技术生成

本文模型可以在给定姿势(pose)条件下,进行采样(生成图像)[左],能得到保持人身份和外表不变的情况下进行姿势变换[中],也能对身体不同部分采样(身体各部分生成多样的图像)
本文模型可以在给定姿势(pose)条件下进行采样(生成图像)[左],能在保持人身份和外表不变的情况下进行姿势变换[中],也能对身体不同部分采样(身体各部分生成多样的图像)

摘要

本文任务:
pose-conditioned image generation/ pose transfer/ part sampling
本文是关于人的图像生成任务的,是第一个解决关于将人的图像生成的多个方面问题(全局的外表采样、姿势transfer、不同身体部位和穿衣transfer、分部位采样)整合在一个框架中的方法。
方法概览:
本文的模型对基于身体部位的外表隐向量编码,编码到一个归一化的与姿势无关的空间。然后扭曲变换到不同姿势的空间,就可以实现保持身体和衣服外表不变的情况下,进行姿势转换。

引言

与本文任务相近的工作的是pix2pix,pix2pixHD,通过外部显式输入的条件图像生成网络。不幸的是,他们原来的模型,不能构成一个可以从中进行采样(就是随机生成图像)的完整模型,它们设计成产生单个确定性的输出。
技术栈:

  • 基于隐空间的GAN
  • VAE

贡献:

  • 提出HumanGAN
  • 提出在变分框架下,基于身体部位的编码和指定部位空间转换的新策略,可以实现姿势与不同身体部位外表的解耦

方法

overview of method
方法概述:
P ∈ R H ∗ W ∗ 3 P\in R^{H*W*3} PRHW3,用DensePose来代表
z ∈ R M ∗ N z\in R^{M*N} zRMN,M个人体部位,N:某确定部位的隐向量维度
I ∈ R H ∗ W ∗ 3 I\in R^{H*W*3} IRHW3,生成的图像
本文任务: 寻找确定性的映射 G : ( P , z ) − > I G:(P,z)->I G:(P,z)>I

在VAE上建立模型,作为隐变量模型, I I I假设是依赖于隐变量 z z z z z z编码 I I I的语义信息。目标是通过最大化 E L B O ELBO ELBO找到他们的联合分布 p ( I , z ) p(I,z) p(I,z) E L B O ELBO ELBO联合优化编码器 q ( z ∣ I ) q(z|I) q(zI)和解码器 p ( I ∣ z ) p(I|z) p(Iz)。本文核心假设 z z z仅仅 I I I中subject的外表相关(注:与pose,与背景无关)。为了强化此,为了编码特定身体部位的 z z z,首先从 I I I中提取与姿势无关的外表 T T T。然后对 z z z进行变换(结合 P t P_t Pt),变换后得到的噪声图,通过生成器生成图像。

可分为:
- 给定输入图像 I s I_s Is
- 提取人外表的UV texture map T s T_s Ts【DensePose】
- 编码器将 T s T_s Ts编码到明确部位(part-specific)的隐向量 z s z_s zs【VAE】
- 目标姿势 P t P_t Pt用来将隐向量 z s z_s zs扭曲变形(warp)和广播(brodcast)到目标图像的对应的parts,以此创建一个noise image Z t Z_t Zt
- 生成器用 Z t Z_t Zt生成图像【pix2pixHD的生成器】
- 测试时,通过控制z∈N(0,1)和目标 P t P_t Pt</

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值