CVPR 2019 | 基于骨架表达的单张图片三维物体重建方法

最新推荐文章于 2024-02-21 07:31:03 发布

PaperWeekly

最新推荐文章于 2024-02-21 07:31:03 发布

阅读量2.6k

点赞数 1

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/89324972

版权

华南理工大学、香港中文大学（深圳）与微软亚研院合作提出一种基于骨架的深度学习算法，解决单视角三维物体重建的拓扑复杂性问题。通过骨架合成网络与分阶段学习，融合体素、点云、三角网格等形状表达，实现在单张图片上恢复高精度三维物体，尤其适合重建具有细长结构的物体。此方法在CVPR 2019被选为Oral论文。

摘要由CSDN通过智能技术生成

640

现有的单视角三维物体重建方法通过采用不同的几何形状表达方式取得了不同程度的成功，但它们都难以重建出拓扑复杂的物体形状。为此，华南理工大学，香港中文大学（深圳）以及微软亚研院联合提出一种以骨架（meso-skeleton）为桥梁融合多种形状表达方式优点的深度学习算法，非常有效地解决了这一难题。

为了能够准确地抓住物体的拓扑结构，本文引入了骨架做为桥梁，因其具有保护拓扑而又易于学习的优点。为了能够从图片中准确地推断出对应物体的骨架，他们设计了一个全新的骨架合成网络架构，利用平行双分支结构分别合成曲线状和曲面状骨架。

同时，他们采用了分阶段学习的方式以融合多种形状表达方式（体素，点云，三角网格）各自的优点。图像的多阶段层级利用有助于减小各阶段学习时累计的预测误差。实验结果表明，这一方法在定量和可视化对比均优于现有的重建方法。这项工作受到会议评审者的一致好评，三位评审者均给出了强烈接（Strong Accept）的意见，已收录为 CVPR 2019 Oral 论文。

640?wx_fmt=png

Introduction

从单张图片恢复出三维物体形状这一研究课题在许多应用中扮演着重要的角色，例如增加现实，图像编辑。但是由于物体的拓扑结构复杂多变，这一课题也颇具挑战性。目前，基于体素表达的方法受限于三维卷积网络计算和内存的限制而难以得到高分辨率的输出。基于点云表达的方法又很难生成平滑而又干净的表面。

三角网格表达对物体形状提供了一种更有效，更自然的离散化逼近方式。最近的一些方法尝试直接从输入图像中恢复物体的网格表达。这些方法本质上是在对一个给定拓扑连接关系的初始网格变形，比较有代表性的初始网格有单位平面，球。尽管它们有一定的效果，但是仍然难以恢复具有复杂拓扑结构的物体表面，例如图 1 所表示的具有细长的杆的椅子。

640?wx_fmt=png

▲ 图1. 本文提出的方法能从单视角图像中重建完整的三维物体，而且能正确地恢复拓扑

因此，本文提出了一种基于骨架表达的分阶段学习方法，来实现从单张图片恢复物体表面网格表达，对于重构桌子椅子这些具有细长结构的物体效果尤为显著。他们引入了骨架，因其能很好地保护拓扑，而且相比于复杂的表面更易于学习。

他们的方法具体分为以下三个阶段：

第一阶段是从输入图像中学习生成骨架点云。为此他们设计了平行的双分支网络架构，被命名为 CurSkeNet 和 SurSkeNet，分别用于曲线状和曲面状骨架点云的合成。为了 CurSkeNet 和 SurSkeNet 的训练，他们针对 ShapeNet 的物体模型处理了骨架数据集来当做 ground truth 用于训练。

在第二个阶段，他们通过将合成的骨架点云体素化，然后用三维卷积网络对粗糙的骨架体素进行修复提取出一个初始网格。此处为了减小高清体素输出时的网络复杂度，采取了用全局结构引导分块体素修复的方式。

最后一个阶段使用图卷积神经网络来对前面获得的初始网格进行变形以得到最后表面网格表达。