CVPR 2024 | 浙大ReLER实验室提出SIFU：高质量3D人体重建模型

最新推荐文章于 2024-07-23 23:13:40 发布

Amusi（CVer）

最新推荐文章于 2024-07-23 23:13:40 发布

阅读量2.6k

点赞数

文章标签： 3d 人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247594101&idx=3&sn=da0d526caacafcbc0545f7c0b3468a93&chksm=f85cb97e3ee75d1a533314c322c782b0074b93d59d64d650fd05f1a601619f07739a828e6472&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【扩散模型和3D重建】交流群

添加微信：CVer444，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文搞科研，强烈推荐！

【引言】最近来自浙江大学ReLER实验室的研究人员提出SIFU模型，一种侧视图条件隐函数模型用于单张图片3D人体重建。模型通过引入人体侧视图作为先验条件，并结合扩散模型进行纹理增强，在几何与纹理重建测试中均达到SOTA，并且在真实世界中具有多种应用场景。

在AR、VR、3D打印、场景搭建以及电影制作等多个领域中，高质量的穿着衣服的人体3D模型非常重要。传统的方法创建这些模型不仅需要大量时间，还需要能够捕捉多视角照片的专业设备，此外还依赖于技术熟练的专业人员。

与此相反，在日常生活中，我们最常见的是通过手机相机拍摄的或在各种网页上找到的人像照片。因此，一种能从单张图像准确重建3D人体模型的方法可以显著降低成本，并简化独立创作的过程。

图注：以往方法（左）与本文方法技术路线比较（右）

以往的深度学习模型用于3D人体重建，往往需要经过三个步骤：从图像中提取2D特征，将2D特征转到3D空间，以及3D特征用于人体重建。然而这些方法在2D特征转换到3D空间的阶段，往往忽略了人体先验的引入，导致特征的提取不够充分，最终重建结果上会出现各种缺陷。

图注：SIFU与其他SOTA模型重建效果比较

此外，在对纹理预测的阶段，以往模型仅仅依靠训练集中学得的知识，缺少真实世界的先验知识，也往往导致不可见区域的纹理预测较差。

图注：SIFU在纹理预测阶段引入先验知识，增强不可见区域（背部等）的纹理效果。

对此，来自浙江大学ReLER实验室的研究人员提出SIFU模型，依靠侧视图条件隐函数从单张图片重建3D人体模型。该模型通过在2D特征转换到3D空间引入人体侧视图作为先验条件，增强几何重建效果。并在纹理优化阶段引入预训练的扩散模型，来解决不可见区域纹理较差的问题。

论文地址：https://arxiv.org/abs/2312.06704

主页：river-zhang.github.io/SIFU-projectpage/

代码：https://github.com/River-Zhang/SIFU

模型结构

模型pipeline如下：

该模型运行可分为两个阶段，第一阶段借助侧隐式函数重建人体的几何（mesh）与粗糙的纹理（coarse texture），第二阶段则借助预训练的扩散模型对纹理进行精细化。

在第一阶段中，作者设计了一种独特的Side-view Decoupling Transformer，通过global encoder提取2D特征后，在decoder中引入了人体先验模型SMPL-X的侧视图作为query，从而在图像2D特征中解耦出人体不同方向的3D特征（前后左右），最后用于重建。该方法成功的在2D特征转换到3D空间时结合人体先验知识，从而使得模型有更好的重建效果。

在第二阶段，作者提出一种3D一致性纹理优化流程（3D Consistent Texture Refinement），首先将人体不可见的区域（侧面、背面）可微渲染成视角连续的图片集，再借助在海量数据中学习到先验知识的扩散模型，对粗糙纹理图片进行一致性编辑，得到更精细的结果。最后通过精细化前后的图片计算损失来优化3D模型的纹理贴图。

实验部分

更高的重建精度

在实验部分，作者使用全面多样化的测试集对他们的模型进行测试，包括CAPE-NFP、CAPE-FP和THuman2.0，并与以往发表在各大顶会的单张图片人体重建SOTA模型进行比较。经定量测试，SIFU模型在几何重建与纹理重建中均表现出了最好的效果。

图注：定量评估几何重建精度

图注：定量评估纹理重建效果

图注：使用互联网中公开图片作为输入进行定性效果展示

更强的鲁棒性

以往的模型应用训练集以外的数据时，由于估计的人体先验模型SMPL/SMPL-X不够准确，往往导致重建结果与输入图片相差甚远，难以投入实际应用。

对此，作者专门对模型的鲁棒性进行了测试，通过在ground truth先验模型参数中加入扰动使其位姿发生偏移，模拟真实场景中SMPL-X估计不准确的情况，来评估模型重建的精度。结果表明SIFU模型在该情况下，依然具有最好的重建精度。

图注：评估模型面对有误差的人体先验模型时的鲁棒性

图注：使用真实世界中的图片，在先验人体模型估计不准确的情况下，SIFU依然有较好的重建效果。

更广阔的应用场景

SIFU模型的高精度高质量重建效果，使得其具有丰富的应用场景，包括3D打印、场景搭建、纹理编辑等。

图注：3D打印SIFU重建的人体模型

图注：SIFU借助扩散模型进行纹理编辑

图注：SIFU用于3D场景搭建

图注：更多定性测试结果（输入图片均来自互联网）

图注：借助公开动作序列数据，可对SIFU重建的模型进行驱动

总结

本文提出侧视图条件隐式函数和3D一致性纹理编辑方法，弥补了以往工作在2D特征转换到3D空间、纹理预测时对先验知识引入的不足，极大的提高了单张图片人体重建的精度和效果，使模型在真实世界应用中具有显著的优势，也为该领域未来的研究提供了新的思路。

参考资料：https://arxiv.org/abs/2312.06704

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

3D重建和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-3D重建和扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如3D重建或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看