[读论文]Point Scene Understanding via Disentangled Instance Mesh Reconstruction (DIMR)

最新推荐文章于 2022-12-05 21:07:45 发布

YuQiao0303

最新推荐文章于 2022-12-05 21:07:45 发布

阅读量305

点赞数

分类专栏：读论文 AI point cloud 文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qq_34342853/article/details/125681871

版权

32 篇文章 1 订阅

订阅专栏

21 篇文章 2 订阅

订阅专栏

14 篇文章 2 订阅

订阅专栏

暂未开源

概览

任务：室内场景语义重建
输入：室内场景点云
输出：每个实例的mesh和语义标签

方法：2 stage

stage 1： get instance
输入：场景点云
输出：(point-wise) semantic labels， instance center offsets， rotation angles
方法：略

stage 2: mesh reconstruction
输出：(proposal wise) residual bounding boxes, confidence scores, latent distributions of complet meshes
方法：sparse 3D CNN

inference:
只有在inference的时候才生成mesh，training的时候只求latent distribution

在这里插入图片描述

每个点都predict一个one hot 分类标签 li (交叉熵loss）
每个点都predicte一个offset ( $o_i = (\Delta x_i,\Delta y_i,\Delta z_i)$ ), 表示的是从这个额点到instance center的offset。 （L1 loss）
对每个instance，求一个沿z轴的旋转角度， $r_i \in [ -\pi , \pi)$ （参考46和34，分解成了cls和reg loss）

用一个clustering algorithm把整个场景的点云给分出L个instance。
每个proposal 都给transform to its canonical coordinate system
- 平移到几何中心（每个点预测的几何中心的均值）
- 旋转ri,使其正面朝前
- 每个轴都通过除以max-min来缩放到0-1之间。
voxelize，用一个sparse 3D U-Net来提特征，每个proposal得到一个Dprop维的特征向量
用一个MLP 加 sigmoid给每个proposal求了一个confidence value（监督用的GT是和GT的point IoU）（following [36].）（weighted smooth L1 loss）
用一个MLP来求residual bounding box（由于扫描缺失和遮挡，之前segmentation求的BBox可能不对），新的bbox就是之前求的加上现在这个residual . （weighted smooth L1 loss）
用一个MLP来求高斯分布的mean和standard deviation。GT请看Section3.3.用到了reparameterization trick (37).（weighted smooth L1 loss）

原来的方法效果不好原因有二：

本文方法：

先pre_train一个生成mesh的VAE
- 从GT 的mesh采样点云，voxelize them 作为encoder的输入，encoder 输出一个latent distribution N(μ，σ）
- 从这个distribution 中sample一个latent code z，作为decoder的输入，decoder输出一系列planes来构成mesh。
- 用的是BSP net，在其loss基础上加上了权重为0.1的KL loss。
然后train一个encoder，输入stage2的特征，输出 N(μ，σ），用VAE的N监督。
inference的时候，有不同的选项：
- Mesh_generation: 可以默认用期望来作为latent code，即z=μ。
- Mesh_retrieve 也可以做CAD retrieval，直接search 和latent code最接近的模板即可。
- Mesh_projection: 不求最接近的，而是求最接近的k个，把k个投影到latent space作为最终的结果。

主要包括两种：
Completion quality: 生成的mesh和GT模板的相似程度
Mapping quality：生成的mesh和输入点云的相似程度

completion quality:
- Intersection over Union (IoU) :mesh之间的交并比
- Chamfer Distance (CD)：从mesh 采样一些点，每个点到另一个mesh的点的最短距离
- Light Field Distance (LFD) ：旋绕到multi-view 2D images，然后计算。
mapping quality：坐着提出PCR
- 每一个输入点到生成的mesh的最短距离，小于阈值就认为是这个点是在这个mesh上。PCR就是小于阈值的点的数量除以点总数。