SceneCAD论文阅读

最新推荐文章于 2025-05-15 12:26:26 发布

码零4年

最新推荐文章于 2025-05-15 12:26:26 发布

阅读量482

点赞数

文章标签：深度学习神经网络经验分享

本文链接：https://blog.csdn.net/qq_40142891/article/details/113084722

版权

SceneCAD论文阅读

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

SceneCAD论文阅读
前言
一、摘要
二、贡献
三、算法流程
四、实验对比&效果
五、论文不足点

前言

第一次写博客，格式不对写的不好请见谅。
这篇论文是继Scan2CAD，End-to-End CAD Model Retrieval and 9DoF Alignment in 3D Scans后，同一个作者的续作(同一系列，感觉再写写可以来个CAD宇宙弄个联动)，不过从名声上来看，貌似是越来越低，以至于第一次看的时候找遍全网都没有找到相关解释。这篇论文也是我入门看的第一篇论文，现在贴上我之前做的笔记，若有理解不到位的地方恳请各位大佬指正。

一、摘要

本文提出了一种新颖的方法，可以应用商品级RGB-D传感器重建轻量级，基于CAD模型的3D场景扫描表示。它的关键思想是共同优化CAD模型的对齐方式以及场景扫描的布局估计，明确建模物体到物体与物体到布局之间相互关系(即垂直方向上的支撑，水平方向上的接触等)。通过考虑整体场景布局，我们可以显着地提升CAD模型的匹配水平。

这个系列所做的工作就是如何在三维重建中，将场景的3D扫描中的物体识别出并在CAD模型库中查找最匹配的模型进行替换，并优化姿态。

二、贡献

1.We formulate a lightweight heuristic-free 3D layout prediction algorithm that hierarchically predicts corners, edges and then planes in an end-to-end fashion consisting of only ≈ 1M trainable parameters generating satisfactory layouts without the need for extensive heuristics.

2.We present a scene graph network that learns relationships between objects and scene layout, enabling globally consistent CAD model alignments and results in a significant increase in prediction performance in both synthetic as well as real-world datasets.

3.We introduce a new richly-annotated real-world scene layout dataset consisting of 1151 CAD shells and wireframes on top of the ScanNet RGB-D dataset, allowing large-scale data-driven training for layout estimation.

三、算法流程

数据预处理

输入场景的扫描，用一个能够表示RGBD信息的3D体素网格表示，扫描结果经编码产生feature volume,记作F，作为后续布局估计环节和CAD模型匹配环节的输入。

布局估计

将上一个步骤获得的特征F解码回其原始维度，并用heatmap来表示其体素得分，该得分意代表可能为布局平面角点的概率，并用NMS抑制较弱的概率响应，然后得到一组角点的xyz坐标。
利用预测出的角点来预测边缘，将每一个角点都与其他所有角点分别匹配，两个点连成的边作为侯选边，将两个点的特征向量和坐标连接起来，作为每一条边的输入特征向量，将其输入进一个用二元交叉熵训练的图神经网络，以便于筛选侯选边，可以看作是一个二分类问题.
利用预测出的边来预测整个布局平面，具体步骤和上一步近似，将组成平面四边形的四个点的特征和xyz坐标连接在一起作为预测平面四边形的特征向量，然后输入一个用二元交叉熵训练的图神经网络，然后得到最终布局平面的预测。

物体CAD模型匹配

通过扫描特征F获取物体的anchor，并应用NMS过滤掉多余的anchor。
提取出物体的特征描述子
将物体的特征描述子和CAD模型的特征描述子映射到一个shared embedding空间，在这个空间中寻找与物体特征向量最接近的CAD模型的特征向量，即完成了物体和CAD模型匹配的过程，将扫描场景中的物体用CAD模型表示。

学习物体和场景布局(即房间整体，墙地板天花板)的关系

构造一个消息传递图神经网络，将物体和布局平面作为节点，物体和物体以及物体和平面的关系作为边。输入是被检测物体和布局四边形经过pooling后相同大小的特征描述子，输出是物体和布局平面1之间的关系分类，以及对象之间的姿态关系。以此来优化经过CAD模型匹配所带来的整体不协调的问题(例如，物体穿过底部平面)。
在这里插入图片描述

四、实验对比&效果

在这里插入图片描述

五、论文不足点

虽然这项工作的重点是通过对对象和布局的联合预测来展示改进的场景理解，但我们相信还有取得进一步成就的潜力。例如，我们的布局预测方法只能预测四边形平面，因此可以使用更复杂的方法进行更精确的布局估计。此外，我们使用了一个非常轻量级的图形神经网络进行消息传递。人们可以使用更复杂的方法来进行更精确的关系预测和更丰富的关系集合，这些关系集合可以包含功能关系、空间关系或房间语义关系。在未来的工作中，为了增强虚拟现实环境中的沉浸式体验，有必要对数字化形状进行纹理化。