【论文阅读笔记】HYPERHUMAN: HYPER-REALISTIC HUMAN GENERA-TION WITH LATENT STRUCTURAL DIFFUSION

Info

Project https://snap-research.github.io/HyperHuman/
Paper https://arxiv.org/abs/2310.08579

动机

  1. 生成逼真人类图像是迄今为止还难以实现的问题,SD 、 Dalle 系列很容易生成不连贯或不自然姿势的人类图像。
  2. 关键洞察是人类图像在多个粒度上固有地具有结构性,从粗粒度的身体骨架到细粒度的空间几何。因此,在一个模型中捕捉明确外观和潜在结构之间的这种相关性对于生成连贯和自然的人类图像至关重要

在这里插入图片描述

引言

  1. 结构性控制生成扩散模型,常见的比如 ConrolNet、T2I Adapter 、HumanSD 仅使用单个控制信号,比如 depth、Normal、human Skeleton
  2. 本篇文章考虑对人体外观的不同类型结构信息之间的多层次相关性进行建模

Highlights

  1. 首先构建可以个名为 HumanVerse 的大规模数据集。包含 340M高质量的野外人类图像,具有丰富的注释【粗略的身体骨架、细粒度的深度和表面法线图、高级图像 caption 和 Attributeys】
  2. 在潜在结构扩散模型中,增加预先训练的扩散主干、以同时去噪 RGB、深度和法线。
  3. 选择合适的网络曾被复制为结构专家分支、使模型能够处理不同领域的输入、输出,保证去噪纹理和结构之间的空间对齐,由于这种设计,图像外观、空间关系和几何能够在一个统一的网络中联合建模。每个分支在结构意识和纹理丰富度方面相互补充
  4. 为了生成局部区域具有相似值的单调深度和表面法线,我们利用改进的噪声调度来消除低频信息泄露。为每个分支采样相同步长,以获得更好的学习和特征融合。

Contributes

  1. 我们提出了一种新颖的 HyperHuman 框架,用于高保真的野外可控人体图像生成。一个大规模的以人为中心的数据集HumanVerse是用人体姿势、深度和表面法线等综合注释来管理的。作为人类生成基础模型最早的尝试之一,我们希望有利于未来的研究。
  2. 我们提出了潜在结构扩散模型,在一个统一的框架中联合捕获图像的外观、空间关系和几何。进一步设计了结构引导细化器,以组成预测条件,以生成更好的视觉质量和更高的分辨率。
  3. 大量的实验表明,我们的HyperHuman产生了最先进的性能,在不同的场景下生成超逼真的人体图像

相关工作

  1. T2IDiffusion:diffusion 超过 GAN,展现了很好的质量,但在生成逼真人类还有问题
  2. 可控人类图像生成
  3. 大型数据集对于图像生成至关重要。现有的以人为中心的集合主要面临以下缺点:1)质量较差的低分辨率。例如,Market-1501 (Zheng et al., 2015) 包含分辨率为 128 × 64 的嘈杂行人图像,Viton (Han et al., 2018) 具有 256 × 192 的人体服装对,不足以训练高清模型。2) 某些域的多样性有限。例如,SHHQ (Fu et al., 2022) 主要由具有干净背景的全身人类组成,DeepFashion (Liu et al., 2016) 专注于姿势变化很小的时尚图像。3) 数据集规模不足,其中 LIP (Go
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值