论文学习笔记（三） SGPN: Similarity Group Proposal Network for 3D Point Cloud Instance Segmentation

最新推荐文章于 2024-05-25 09:35:03 发布

Wilber529

最新推荐文章于 2024-05-25 09:35:03 发布

阅读量3.8k

点赞数 1

分类专栏： # PointCloud 文章标签：点云分割实例分割深度学习计算机视觉

本文链接：https://blog.csdn.net/sinat_37532065/article/details/84946773

版权

PointCloud 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

『写在前面』

无意间看到了《深度学习在点云分割中的应用》干货总结，原视频为SGPN原作者的技术分享，便搜来仔细研读一番~ SGPN是首个使用原始点云作为输入的实例分割网络，本篇blog为方便自己回忆要点用，建议参照原版paper使用。欢迎各位指正纰漏。

论文出处：CVPR 2018

作者机构：Weiyue Wang等，University of Southern California

原文链接：https://arxiv.org/abs/1711.08588v1

作者repo：https://github.com/laughtervv/SGPN

SGPN网络框架如下图所示，大致流程描述如下：

相似度矩阵计算&理解

Double-Hinge Loss

Similarity Confidence Network

Semantic Segmentation Map

3.2 推荐点组合并

4 实验

5 结论

摘要

SGPN通过一个单独网络去预测点组推荐并为各个推荐组分配相应标签。
提出深度相似矩阵表征特征空间中每对点之间的相似性，从而帮助产生点分组建议。
SGPN是首个用在点云数据上的3D实例分割网络。

1 介绍

受常见2D场景理解任务启发，作者的目标是构建一种end-to-end的3D实例分割网络。
SGPN大体框架：首先使用PointNet/PointNet++提取深层特征；然后基于度量学习的思想，引入深度相似矩阵，目的是通过学习使得相同类别的点在特征空间中距离更近。
SGPN有3个输出分支：

相似度矩阵(similarity matrix)：用于产生点组推荐，点组推荐其实就是2D分割生成的每个instance的mask
置信度映射图(cofidence map)：用于对产生的点组推荐进行剪枝，因为相似度矩阵的维度是与点集大小规模相当的
语义分割映射(semantic segmentation map)：用于预测类别标签

2 相关工作

2D目标检测与实例分割方面：
- R-CNN/Faster R-CNN
- YOLO v1-v3
- DeepMask
- Mask R-CNN
3D深度学习方面：
- 3D CNN
- Octree-based CNN
- PointNet/PointNet++
度量学习方面：
- 本文以一种特殊的方式使用度量学习。作者视图回归两个点属于相同group的可能性，同时基于相似度矩阵还可以产生点组推荐，以适配不同数量的实例

3 方法

3.1 SGPN网络设计

SGPN网络框架如下图所示，大致流程描述如下：

输入原始点云： $N_{p}\times C, C \geqslant 3$ (个人认为，Fig.2输入点云维度描述有误，按文中描述， $N_{f}$ 应该是通过多层PointNet/PointNet++后映射到的特征维度）；
分为三个分支，每个分支会计算得到一个特征矩阵：
- $F_{SIM}$ : Shape $(N_{p}\times N_{p})$
- $F_{CF}$ : Shape $(N_{p}\times 1)$
- $F_{SEM}$ : Shape $(N_{p}\times N_{c})$
因为相似度矩阵提供了 $N_{p}$ 个点组推荐，但实际中可能并没有那么多instance，其中有很多点组对应的是同个instance，所以在三个分支的输出后，加了一步Group Merging（点组合并）操作
最后，就得到了点云实例分割的结果。训练过程中，loss计算考察三个分支loss的总和。

相似度矩阵计算&理解

计算方法：

相似度矩阵尺寸为 $N_p \times N_p$ ，点 $S_{ij}$ 表示点和点属于同一个object instance的概率
的每一行可以视作一个点组推荐
的计算方法为 $S_{ij}=\left \| F_{SIM_i}-F_{SIM_j} \right \|_2$ ，即两点对应特征向量差的L2范数

为什么要使用相似度矩阵？

对图像或体素网格数据这种space-centric结构来说，二进制mask是最自然的实例分割表示，因为它们的特征主要由网格中的高响应区域给出。
与之相反，点云数据可以被看做是一种shape-centric结构，它的信息通过点之间的相关性给出。
所以，作者认为应该更多关注在点之间相关性上，通过点之间的关系定义实例分割输出是一种更加自然的表示。

Double-Hinge Loss

在训练深度相似矩阵过程中，我们其实并不需要准确地回归矩阵中的数值，只是想通过优化，使得相似的点在特征空间中距离更近。点与点之间的关系可以归为以下三类：1. 属于同一个实例；2.属于同一个类别，但不属于同一个实例；3.属于不同类别。相似度矩阵中元素数值越大，说明其对应的两点在特征空间中距离越远（差的L2范数越大）。

计算公式如下，其中 $\alpha > 1, K_2 > K_1$ .