《论文阅读》PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation

最新推荐文章于 2024-04-27 10:09:45 发布

未知丶丶

最新推荐文章于 2024-04-27 10:09:45 发布

阅读量2.2k

点赞数 4

分类专栏：深度学习计算机视觉文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_43310834/article/details/109400479

版权

深度学习同时被 2 个专栏收录

107 篇文章 16 订阅

订阅专栏

计算机视觉

91 篇文章 11 订阅

订阅专栏

留个笔记自用

PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation

做什么

Instance segmentation实例分割
在这里插入图片描述
目标检测（ Object detection）不仅需要提供图像中物体的类别，还需要提供物体的位置（bounding box）。语义分割（ Semantic segmentation）需要预测出输入图像的每一个像素点属于哪一类的标签。实例分割（ instance segmentation）在语义分割的基础上，还需要区分出同一类不同的个体。
在这里插入图片描述
这里就是从2D图像的分割转移到了点云上的分割，无非就是在位置信息上多了一维

做了什么

在这里插入图片描述
考虑到了2D和3D的最大区别，深度，这里采用空间缝隙对每个点进行分类，采用偏置来将每个点对应到各自的实例（在原始坐标系与偏置后的坐标系下），也就是dual set

怎么做

在这里插入图片描述
整体结构由三个部分组成，backbone骨干部分，clustering聚类部分，ScoreNet打分部分。
整体的流程是，首先定义输入P，是一个包含了N个点的点云，每个点包含几个属性，首先是f_i={r_i,g_i,b_i}代表了点的颜色，p_i={x_i,y_i,z_i}代表了点的位置。
先使用骨干网络提取点云中N个点每个点的特征，记作F={F_i}∈R^N×K，其中k是特征的通道数。然后使用两个分支来产生一个偏置向量O={o_i}和语义标签S={s_i}，一个是用于语义分割，另一个用于预测每个点的偏移，以将每个点移向各自对象的质心。
在这里插入图片描述
然后引入一个聚类模块。根据对象之间的空隙空间将点分组到实例簇中，这也是2D分割所不具备的特点，3D点云能很好的解释遮挡等位置问题。这里将学习到的偏移向量o_i作用于点i，使其向对应对象的质心移动，得到q_i=o_i+p_i，这样使得相邻的点（属于不同对象的）能更好的区别开。但是对于边界上的点（如两个物体紧贴的线上的点）不好根据偏移来进行分类，所以这里采用了双坐标系（即原始位置和偏移位置）
在这里插入图片描述

这里是根据P和Q得到的两个聚类结果，P是原始坐标系，Q是偏移坐标系，M_P和M_Q均是各自的簇数

最后

后使用NMS对其进行最终预测，这里的NMS值的是非极大值抑制（Non-Maximum Suppression，NMS），也就是局部取最大值，常见于目标检测领域在这里插入图片描述
这里的作用也是为了根据ScoreNet的评分去除多余的分割情况
然后就是各自网络的具体实现方法
首先是骨干网络，也就是feature extractor网络

这里是采用稀疏卷积构成的Unet来进行的，至于稀疏卷积
稀疏卷积
然后就是两条分支路线，首先是语义分割路线
这里是构造了一个MLP来对F以得到语义得分SC={sc₁,sc₂…}∈R^N×N_class，然后对其使用一个argmax得到类别s_i
在这里插入图片描述
这里是用cross-entropy（L_sem）来进行训练
然后是偏移路线，这里构造了一个L₁回归loss来训练

这里的o_i就是所求的偏置向量，m_i是一个二进制的mask，当m_i=1时就是表示点i在实例上，c是点i所属的实例的质心，p_i就是点i的所在位置，也就是在这里插入图片描述
g(i)就是把点i映射到其对应实例的GT，定义了偏置损失后，对于一些较大尺寸的实例对象，为了使它边界上的点能更好的由网络学习到属于该实例，又定义了一个方向损失

这个损失考虑的不是点与质心的距离，而是点与质心的方向（即偏置是将点往质心方向移动）
然后是第二部分，聚类部分
在这里插入图片描述
这里是将整个算法都列举出来了

简单理解一下步骤，对于点i得到以它坐标为中心，半径为r的球内的所有点，并将这些点中与点i具有相同语义标签的点分组到同一簇中
最后就是最后一个部分，score也就是打分部分
这时输入已经是上一个部分的输出C={C₁,C₂…C_M}，这里的M是候选聚类的总数，c_i是第i个聚类，每个聚类中有N_i个点，scorenet做的就是对这所有聚类各自打分，然后使用前面所说的NMS来得到好的聚类结果
在这里插入图片描述
这里的F_{c_i}就是c_i聚类中各个点的f_i特征也就是前面骨干网络得到的，后面的P_{c_i}是坐标，其余同理
然后将其voxel化，每个voxel的特征都由该voxel中点的特征的avg组成，然后还是一个带有稀疏卷积的Unet网络，再跟上一个maxpool层得到最后的f_c，这里得到的是一个1×K_c的，意思是该聚类最终的特征，然后
在这里插入图片描述
F_C即包含了该类中所有点的特征，得到的最后这个就是整体所有的得分
然后定义这部分的训练方式

这里的s_i^c是定义的一个soft label

这里，θ_l是0.25，θ_h是0.75，iou<sub<i是聚类C_i与GT最大的IOU部分

这个LOSS就可以理解为成一个分类的cross-entropy