HumanGAN: A Generative Model of Human Images(CVPR2021)

最新推荐文章于 2024-05-30 09:55:48 发布

长大了的暗

最新推荐文章于 2024-05-30 09:55:48 发布

阅读量1.3k

点赞数 1

分类专栏：深度学习 GAN论文

本文链接：https://blog.csdn.net/qihangran5467/article/details/118146228

版权

HumanGAN是一种综合解决人体图像条件生成、姿势转换及部分采样的方法。模型利用DensePose提取姿势，通过编码器和解码器在变分框架下实现姿势与外表的解耦。在训练过程中，采用重建、GAN和先验损失进行优化，允许在推理时对特定部位进行采样和姿势变换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文模型可以在给定姿势(pose)条件下，进行采样（生成图像）[左]，能得到保持人身份和外表不变的情况下进行姿势变换[中]，也能对身体不同部分采样(身体各部分生成多样的图像)
本文模型可以在给定姿势(pose)条件下进行采样（生成图像）[左]，能在保持人身份和外表不变的情况下进行姿势变换[中]，也能对身体不同部分采样(身体各部分生成多样的图像)

摘要

本文任务：
pose-conditioned image generation/ pose transfer/ part sampling
本文是关于人的图像生成任务的，是第一个解决关于将人的图像生成的多个方面问题(全局的外表采样、姿势transfer、不同身体部位和穿衣transfer、分部位采样)整合在一个框架中的方法。
方法概览：
本文的模型对基于身体部位的外表隐向量编码，编码到一个归一化的与姿势无关的空间。然后扭曲变换到不同姿势的空间，就可以实现保持身体和衣服外表不变的情况下，进行姿势转换。

引言

与本文任务相近的工作的是pix2pix,pix2pixHD，通过外部显式输入的条件图像生成网络。不幸的是，他们原来的模型，不能构成一个可以从中进行采样(就是随机生成图像)的完整模型,它们设计成产生单个确定性的输出。
技术栈：

基于隐空间的GAN
VAE

贡献：

提出HumanGAN
提出在变分框架下，基于身体部位的编码和指定部位空间转换的新策略，可以实现姿势与不同身体部位外表的解耦

方法

overview of method
方法概述：
$P\in R^{H*W*3}$ ,用DensePose来代表
$z\in R^{M*N}$ ,M个人体部位，N：某确定部位的隐向量维度
$I\in R^{H*W*3}$ ，生成的图像
本文任务: 寻找确定性的映射 $G : (P, z) - > I$

在VAE上建立模型，作为隐变量模型， $I$ 假设是依赖于隐变量 $z$ ， $z$ 编码 $I$ 的语义信息。目标是通过最大化 $E L B O$ 找到他们的联合分布 $p (I, z)$ ， $E L B O$ 联合优化编码器 $q (z ∣ I)$ 和解码器 $p (I ∣ z)$ 。本文核心假设是 $z$ 仅仅 $I$ 中subject的外表相关（注：与pose，与背景无关）。为了强化此，为了编码特定身体部位的 $z$ ，首先从 $I$ 中提取与姿势无关的外表 $T$ 。然后对 $z$ 进行变换(结合 $P_t$ )，变换后得到的噪声图，通过生成器生成图像。

可分为：
- 给定输入图像 $I_s$
- 提取人外表的UV texture map $T_s$ 【DensePose】
- 编码器将 $T_s$ 编码到明确部位(part-specific)的隐向量 $z_s$ 【VAE】
- 目标姿势 $P_t$ 用来将隐向量 $z_s$ 扭曲变形(warp)和广播(brodcast)到目标图像的对应的parts，以此创建一个noise image $Z_t$
- 生成器用 $Z_t$ 生成图像【pix2pixHD的生成器】
- 测试时，通过控制z∈N(0,1)和目标 $P_t$

最低0.47元/天解锁文章