点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
作者丨人脸人体重建
来源丨人脸人体重建
元宇宙时代,什么最关键?当然是虚拟化身的获取像拍摄一张照片一样简单!
本文作者来自 Facebook 和 UCLA,作者基于 CVPR 2020 的文章 ARCH,提出了其改进版 ARCH++,ARCH++ 可以从一张人体图片重建出对应的穿衣服的人体网格模型,以及标准姿态 (A pose) 空间下的人体网格 ,且能直接进行动画驱动。
项目主页:https://tonghehehe.com/archpp
Method
文章的流程如下图所示,主要分为三个步骤:
Semantic-Aware Geometry Encoder:基于PointNet++从参数化人体模型上采样的点云中学习空间特征;
Pixel-Aligned Appearance Encoder:基于Stacked Hourglass Network从输入图片学习像素对齐的图像特征;
Joint-Space Occupancy Estimator:从点云空间特征和图像外观特征学习人体在规范空间和当前姿态空间的3D占据场。
Joint-Space Implicit Surface Reconstruction
Semantic-Aware Geometry Encoder
采样点的空间特征表达对神经网络学习隐式函数至关重要,虽然像素对齐的外观特征已经被证实了在带衣服人体重建的有效性,但逐点空间编码的有效设计还没有被深入研究。提取的几何特征应该了解当前3D人体的语义信息,对穿衣服人体的形状提供强先验。
为了能够有效地编码人体的形状和姿态先验,作者提出了一个语义感知的几何编码器来提取逐点空间编码。首先使用现有方法从输入图片估计参数化人体模型,并将其变形到规范空间,再从人体网格采样得到点云,送入PointNet++学习基于点的空间特征。
Pixel-Aligned Appearance Encoder
像素对齐的外观特征与PIFu,PIFuHD等方法类似,通过一个沙漏网络(Stacked Hourglass Network)从输入图片学习外观特征编码。
Joint-Space Occupancy Estimator
作者使用基于联合空间的人体占据场 ,来隐式地表示在实际姿态空间和标准姿态空间下的穿衣服3D人体:
其中 分别表示点 的占据值,实际姿态空间中的点 可以通过语义变形映射 (Semantic Deformation Mapping, SemDF) 变形到标准姿态空间 ,SemDF 通过参数化人体网格的蒙皮权重来计算。
Mesh Refinement
为了给重建的人体网格增加更多几何细节和真实纹理,作者首先通过卷积神经网络 Pix2Pix,从输入图片预测人体正面和背面的法向图以及背面的纹理图,然后提出了一个 moulding-inpainting 机制来利用法向图和纹理图来完善模型,具体流程如下图所示。法向图和纹理图可以直接作为沙漏网络(Stacked Hourglass Network)输入的其他通道,也可以作为正面和背面网格的采样来源来直接增加细节,作者通过实验证明后者对于表面细节的增强更加有效。
Posed Space
对于当前姿态空间的人体,作者首先通过 Marching Cube 算法在当前姿态空间提取出人体网格,然后判断人体网格上每一个顶点的可见性,根据可见性选择从正面或背面的法向图/纹理图进行双线性采样作为细节增强后网格的法向,对于网格顶点法向与相机方向接近垂直的顶点,作者使用正面和背面的法向的加权组合作为新法向,从而根据新法向计算得到带有更多表面几何细节的人体网格。纹理增强以同样的方式进行,最终得到具有更多几何和纹理细节的穿衣服人体网格模型。
Canonical Space
对于标准姿态空间中的人体模型,首先将其变形到其原始姿态,然后通过上述同样的方法增加细节。但由于当前姿态的人体可能存在一定程度的遮挡(如双手放置在胸前),标准姿态空间中的人体网格可能有部分区域没有对应的法向和纹理。为了解决这个问题,作者将标准姿态空间中的人体网格渲染得到不完整的正面和背面的法向图、纹理图,将其看作一个图像修复的问题,使用 Patch Match 来修复缺失的部分。
Results
下图展示了从真实图片进行穿衣服人体重建的结果。
Comparisons
下图展示了 ARCH++ 与当前 state-of-the-art 方法 PIFu、PIFuHD、ARCH 方法的对比结果,文章方法对不可见区域的重建结果更加准确且具有更多几何细节,纹理也更加清晰。
Comparisons
下图展示了文章提出的 ARCH++ 与 PIFuHD 方法的结果对比,ARCH++ 重建的结果更加准确,具有更多表面几何细节。
下图展示了 ARCH++ 和 ARCH 的结果对比,ARCH++ 重建的结果缺陷较少,背面的几何更加准确。
下图展示了ARCH++与ARCH纹理重建的结果对比,ARCH++ 的纹理重建结果与输入图片更加匹配,且背面的纹理图更加真实,具有更多细节。

ARCH++: Animation-Ready Clothed Human Reconstruction Revisited. Tong He, Yuanlu Xu, Shunsuke Saito, Stefano Soatto, Tony Tung. ICCV, 2021.
ARCH: Animatable Reconstruction of Clothed Humans. Zeng Huang, Yuanlu Xu, Cristoph Lassner, Hao Li, Tony Tung. CVPR, 2020.
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程推荐:
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~