ICON: 从单张图片重建穿衣服人体模型

最新推荐文章于 2024-10-10 07:33:04 发布

3Ｄ视觉工坊

最新推荐文章于 2024-10-10 07:33:04 发布

阅读量3.7k

点赞数 3

文章标签：算法计算机视觉机器学习人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247591245&idx=3&sn=b1c6510382f2bbece6d30542f90a16a0&chksm=fbfd4e79cc8ac76f89123690780c358894b2f2ffb74e713558c9829794c38548426337352034&scene=126&&sessionid=0

版权

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨人脸人体重建

来源丨人脸人体重建

马普所最新文章，穿衣服人体重建新方法 ICON (Implicit Clothed humans Obtained from Normals)，输入一张彩色图及其对应的 SMPL 人体模型，便能重建出像素对齐的穿衣服 3D 人体模型。

代码和预训练模型将会公开，大家可以保持关注！

https://github.com/YuliangXiu/ICON

Method

ICON 的整个流程如下图所示，主要分为两个模块

SMPL-guided clothed-body normal prediction：从输入图片估计 SMPL 人体模型，然后基于 SMPL 估计人体正面和背面的法向图；
Local-feature based implicit surface reconstruction：基于预测的人体法向图和 SMPL 人体模型，回归穿衣服人体的隐式曲面。

Overview

Body-guided Normal Prediction

输入一张人体图片，作者先使用 PARE[1] 估计其对应的 SMPL 人体模型，再使用 Pytorch3D 可微分渲染器渲染 SMPL 人体模型正面和背面的法向图 ï¼Œ。给定和输入的彩色图，法向网络预测穿衣服人体的法向图 ï¼Œ：

法向网络训练的损失函数为

其中是预测的法向图与真实值之间的 L1 损失，是感知损失，如果只有像素的 L1 损失，预测的法向图会比较模糊，增加感知损失能够帮助恢复细节信息。

Refining SMPL

显然，一个更加准确的 SMPL 人体模型能够提供更好的先验，从而有助于预测更加准确的人体法向。然而，现在的人体姿态和形状估计方法通常无法输出像素对齐的 SMPL 模型。为了解决这个问题，在推理阶段，作者基于渲染的 SMPL 人体法向图和预测的穿衣服人体法向图之间的差异完善 SMPL 模型，即通过优化 SMPL 人体模型的形状参数、姿态参数和平移，极小化下面目标函数：

其中是法向图的 L1 损失，是 SMPL 人体模型的法向图轮廓和穿衣服人体模型的法向图轮廓之间的 L1 损失。

SMPL Refiniment

Refining Normals

SMPL 人体模型优化了之后，其重新渲染的法向图会输入法向预测网络，完善的 SMPL 人体模型有着更好的像素对齐性，能够指导预测更加可靠、具有更多细节的法向图。

Refinement Loop

在推理阶段，ICON 在 SMPL Refiniment 和 Normals Refiniment 之间交替迭代。实验证明这种反馈循环能够指导生成更加可靠的正面、背面穿衣服人体法向图。

Local-feature based Implicit 3D Reconstruction

给定输入的穿衣服人体法向图和 SMPL 人体网格，作者基于局部特征回归穿衣服人体的 3D 隐式曲面，局部特征有三部分组成，即：

其中是点到 SMPL 人体网格上的最近点的带符号距离，是点的重心坐标表面法向，是根据点的可见性从或提取的法向量：

其中表示 3D 点的 2D 投影点。值得注意的是，与人体的全局姿态是不相关的，实验显示这个特征是模型对训练集分布之外的姿态也有较好的泛化性和鲁棒性的关键。

作者将输入用多层感知机 (Multi-Layer Perceptron, MLP) 表达的隐式函数来估计点处的占据值。损失函数为预测值与真实占据值之间的均方误差。最后再使用 Marching Cube 算法提取出人体网格。

Applications

Clothed Human Reconstruction From Image

使用 ICON，我们可以从单张图片生成穿衣服人体模型，下面图片展示了一些重建的结果。

Clothed Human Reconstruction

下面展示了更多复杂姿态下的重建结果，ICON 均能较为准确地重建出图片中的人体模型。

ICON Reconstruction

ICON on Extreme Poses

下图展示了 ICON 与当前 state-of-the-art 方法的对比结果，对于较为复杂的人体姿态，ICON 的重建结果秒杀其他方法。

Comparison with SOTA

Animatable Avatar Creation From Video

将 ICON 和 SCANimate[3] 相结合，还可以从视频生成可驱动的人体 Avatar。首先使用 ICON 从视频的每一帧重建出穿衣服人体模型，然后将这些网格输入 SCANimate 生成可驱动的人体 Avatar。由于 ICON 对各种姿态的鲁棒性，使得学习带有姿态相关的服装变形的人体 Avatar 成为可能。与 3D 扫描数据不同，ICON 从单张图片进行人体网格重建，因此可见区域的重建结果更加可靠，所以作者重新训练 SCANimate，只考虑 ICON 重建网格的可见区域和纹理。下图展示了 Avatar 重建结果。

Avatar Creation

下面动图是由 400 多张图片重建的人体 Avatar，并用 AIST++ 驱动的结果。

ICON + SCANimate + AIST++

参考

ICON: Implicit Clothed humans Obtained from Normals. Yuliang Xiu and Jinlong Yang and Dimitrios Tzionas and Michael J. Black. ArXiv, 2021.
PARE: Part Attention Regressor for 3D Human Body Estimation. Muhammed Kocabas, Chun-Hao P. Huang, Otmar Hilliges, Michael J. Black. ICCV, 2021.
SCANimate: Weakly Supervised Learning of Skinned Clothed Avatar Networks. Shunsuke Saito, Jinlong Yang, Qianli Ma, Michael J. Black. CVPR, 2021.
PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization. Shunsuke Saito, Zeng Huang, Ryota Natsume, Shigeo Morishima, Angjoo Kanazawa, Hao Li. ICCV, 2019.
PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization. Shunsuke Saito, Tomas Simon, Jason Saragih, Hanbyul Joo. CVPR, 2020.
ARCH: Animatable Reconstruction of Clothed Humans. Zeng Huang, Yuanlu Xu, Cristoph Lassner, Hao Li, Tony Tung. CVPR, 2020.
ARCH++: Animation-Ready Clothed Human Reconstruction Revisited. Tong He, Yuanlu Xu, Shunsuke Saito, Stefano Soatto, Tony Tung. ICCV, 2021.

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：