《论文阅读》PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation

留个笔记自用

PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation

做什么

Instance segmentation实例分割
在这里插入图片描述
目标检测( Object detection)不仅需要提供图像中物体的类别,还需要提供物体的位置(bounding box)。语义分割( Semantic segmentation)需要预测出输入图像的每一个像素点属于哪一类的标签。实例分割( instance segmentation)在语义分割的基础上,还需要区分出同一类不同的个体。
在这里插入图片描述
这里就是从2D图像的分割转移到了点云上的分割,无非就是在位置信息上多了一维

做了什么

在这里插入图片描述
考虑到了2D和3D的最大区别,深度,这里采用空间缝隙对每个点进行分类,采用偏置来将每个点对应到各自的实例(在原始坐标系与偏置后的坐标系下),也就是dual set

怎么做

在这里插入图片描述
整体结构由三个部分组成,backbone骨干部分,clustering聚类部分,ScoreNet打分部分。
整体的流程是,首先定义输入P,是一个包含了N个点的点云,每个点包含几个属性,首先是fi={ri,gi,bi}代表了点的颜色,pi={xi,yi,zi}代表了点的位置。
先使用骨干网络提取点云中N个点每个点的特征,记作F={Fi}∈RN×K,其中k是特征的通道数。然后使用两个分支来产生一个偏置向量O={oi}和语义标签S={si},一个是用于语义分割,另一个用于预测每个点的偏移,以将每个点移向各自对象的质心。
在这里插入图片描述
然后引入一个聚类模块。根据对象之间的空隙空间将点分组到实例簇中,这也是2D分割所不具备的特点,3D点云能很好的解释遮挡等位置问题。这里将学习到的偏移向量oi作用于点i,使其向对应对象的质心移动,得到qi=oi+pi,这样使得相邻的点(属于不同对象的)能更好的区别开。但是对于边界上的点(如两个物体紧贴的线上的点)不好根据偏移来进行分类,所以这里采用了双坐标系(即原始位置和偏移位置)
在这里插入图片描述
在这里插入图片描述
这里是根据P和Q得到的两个聚类结果,P是原始坐标系,Q是偏移坐标系,MP和MQ均是各自的簇数
在这里插入图片描述
最后
在这里插入图片描述
在这里插入图片描述
后使用NMS对其进行最终预测,这里的NMS值的是非极大值抑制(Non-Maximum Suppression,NMS),也就是局部取最大值,常见于目标检测领域在这里插入图片描述
这里的作用也是为了根据ScoreNet的评分去除多余的分割情况
然后就是各自网络的具体实现方法
首先是骨干网络,也就是feature extractor网络
在这里插入图片描述
这里是采用稀疏卷积构成的Unet来进行的,至于稀疏卷积
稀疏卷积
然后就是两条分支路线,首先是语义分割路线
这里是构造了一个MLP来对F以得到语义得分SC={sc1,sc2…}∈RN×Nclass,然后对其使用一个argmax得到类别si
在这里插入图片描述
这里是用cross-entropy(Lsem)来进行训练
然后是偏移路线,这里构造了一个L1回归loss来训练
在这里插入图片描述
这里的oi就是所求的偏置向量,mi是一个二进制的mask,当mi=1时就是表示点i在实例上,c是点i所属的实例的质心,pi就是点i的所在位置,也就是在这里插入图片描述
g(i)就是把点i映射到其对应实例的GT,定义了偏置损失后,对于一些较大尺寸的实例对象,为了使它边界上的点能更好的由网络学习到属于该实例,又定义了一个方向损失
在这里插入图片描述
这个损失考虑的不是点与质心的距离,而是点与质心的方向(即偏置是将点往质心方向移动)
然后是第二部分,聚类部分
在这里插入图片描述
这里是将整个算法都列举出来了
在这里插入图片描述
简单理解一下步骤,对于点i得到以它坐标为中心,半径为r的球内的所有点,并将这些点中与点i具有相同语义标签的点分组到同一簇中
最后就是最后一个部分,score也就是打分部分
这时输入已经是上一个部分的输出C={C1,C2…CM},这里的M是候选聚类的总数,ci是第i个聚类,每个聚类中有Ni个点,scorenet做的就是对这所有聚类各自打分,然后使用前面所说的NMS来得到好的聚类结果
在这里插入图片描述
这里的Fci就是ci聚类中各个点的fi特征也就是前面骨干网络得到的,后面的Pci是坐标,其余同理
然后将其voxel化,每个voxel的特征都由该voxel中点的特征的avg组成,然后还是一个带有稀疏卷积的Unet网络,再跟上一个maxpool层得到最后的fc,这里得到的是一个1×Kc的,意思是该聚类最终的特征,然后
在这里插入图片描述
FC即包含了该类中所有点的特征,得到的最后这个就是整体所有的得分
然后定义这部分的训练方式
在这里插入图片描述
这里的sic是定义的一个soft label
在这里插入图片描述
这里,θl是0.25,θh是0.75,iou<sub<i是聚类Ci与GT最大的IOU部分
在这里插入图片描述
这个LOSS就可以理解为成一个分类的cross-entropy

总结

1.简单来说,采用的是深度空间所特有的空隙空间,利用空隙空间来对每个点进行分类,并且还使用了双坐标系的方式,感觉这种做法非常新颖

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值