3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans 解读

概括:

结合三维场景的体素表示和对应的二维图像作为输入, 对三维场景进行物体检测与实例分割。

数据集:

1.真实世界获取的数据集: ScanNet v2

2.人工合成数据集:SUNCG dataset

输入数据表示:

3d:使用RGB-D图像,通过BundleFusion算法重构得到的3d体素表示。在俯视方向将3d数据划分成4.5m*4.5m*2.5m的方块,再用96*96*48的体素块储存一个方块的信息。每个体素的值都是对应位置的TSDF(truncated signed distance field)值。这部分3d数据代表的是输入数据的几何信息。

2d:5张对应位置的RGB图像。分辨率是328*256。选取原则是平均地覆盖到3d区域中的所有物体(selected based on the average voxel-to-pixel coverage of the instances within the region)。

网络结构:

                                                                                 图1 3D-SIS的网络结构

这个网络的思想是结合2d图片,对体素化的3d数据进行物体检测和实例分割。首先将带有颜色信息的2d图像提取特征,映射成体素表示,之后与带有几何位置信息的体素拼接融合。在检测网络中,再次通过3d resnet block提取特征。之后到RPN网络,网络有两个输入,一个是感受野较小的特征层,表示小anchor,另一个是感受野较大的层,表示大anchor。训练完RPN后,使用RPN生成的RoI作为输入,进行分类分支的训练。在实例分割网络中,使用全卷积,使得输出尺寸与输入保持一致。再使用检测网络生成的3d bbox截取分割网络的输出,生成实例分割的结果。

2d映射到3d

首先有个关键点是怎样将2d图像与3d体素表示结合,文章的方法是用三维重建的方法,将二维图像投影到三维的体素表示。由于图像的分辨率是256*328,远大于目标体素表示96*96*48,文章通过卷积的方法,利用ENet[1], 通过语义分割的方式,在NYUv2数据集上训练,将图像总结成尺寸大小32*41,通道数为128的特征表示。在通过图像相应的深度信息,相机内参,和6自由度姿态,将特征表示投影到96*96*48的体素块中,体素值是前面的128通道值。这样5张2d的图像,就投影到了3d体素表示上,得到96*96*48*128的特征表示。

3d RPN

3d RPN有两个分支,一个分支是卷积核为1*1*1的卷积层,表示分类,将通道数变成2*Nanchors, Nanchors=(3,11)。2表示前景和背景的分类得分。另一个分支也是卷积核为1*1*1的卷积层,表示位置回归,将通道数变成6*Nanchors,6表示3d bounding box的位置参数(Δx,Δy,Δz,Δw,Δh,Δl),定义如下。类似fast r-cnn的回归表示。

分类的loss选用二分类交叉熵loss。回归分支选用Huber loss,定义如下:

训练时当anchor与ground truth的IoU大于等于0.35时,当作正样本,参与分类与回归loss的计算,当IoU小于0.15,当作负样本,只参与分类loss计算。

3d ROI pooling

在分类器分支中存在全连接层,需要统一尺寸的输入。由于通过RPN预测出的ROI(region of interest)大小不一,所以要用一个ROI pooling层将大小不一的方块转化成统一尺寸的输出。类似fast r-cnn,这里通过max pool的方式,将ROI转化成大小为4*4*4的输出,最后输入进基于MLP分类器中得到分类结果。

 

3d实例分割

这篇文章结构不够紧凑,因为3d实例分割与前面介绍的3d bounding box检测没有共享网络和权重,而是另起一个网络,使用相同的输入。在实例分割的网络中,使用全卷积,每个卷积的操作,输出都保留原输入的大小不变,这样可以提高分割的准确性。在输出的特征体中,利用检测网络生成的3d bounding box截取出实例分割的结果,在输出的特征体中,每个体素都有c个通道,c是类别的总数。由于检测网络生成的3d bbox不一定准,所以在训练过程中,3d bbox与ground truth的IoU大于0.5才会参与训练。

总结:

这篇网络的优点是分割精度高。缺点有:

1.输入数据复杂。有2d和3d两种形式。在应用中,使收集数据的工作变得复杂。

2.检测网络与实例分割网络没有共享网络与权重,结构不紧凑。

3.虽然作者生成是end to end训练,但实际上是分阶段训练,首先训练2d图像特征提取器,再训练检测网络的RPN,再训练检测网络的分类器,再训练实例分割网络。训练分为了4阶段。

 

参考文献:

1.Adam Paszke, Abhishek Chaurasia, Sangpil Kim, and Eugenio Culurciello. Enet: A deep neural network architecture
for real-time semantic segmentation. arXiv preprint arXiv:1606.02147, 2016. 1, 4

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: randla-net是一种高效的大规模点云语义分割方法。它采用了一种新颖的点云降采样方法,可以在保持点云形状信息的同时大大减少点云数量。此外,它还使用了一种基于局部区域的特征提取方法,可以有效地捕捉点云中的局部特征。最终,randla-net可以在保持较高分割精度的同时,大大提高分割速度。 ### 回答2: Randla-Net是一种高效的大规模点云语义分割方法,它利用深度学习方法实现对三维点云数据中物体的自动识别和分类。在智能驾驶、金字塔建设、城市规划和3D建模等领域,点云数据已经成为一种重要的数据形式。在处理点云数据时,常常需要对点云中的各种物体进行语义分割,划分出物体的类别和边界,以进一步进行场景分析和建模。 Randla-Net的关键思想是将点云数据转换成局部规则网格(LHG)型式,然后对规则网格应用神经网络模型,实现对点云的语义分割。相较于传统的点云分割方法,Randla-Net的解决方案更加高效,并且能够适应大规模点云数据的处理。具体来说,Randla-Net采用的局部规则网格可以大大减少点云数据的复杂性,减少无效数据的计算,同时保证点云数据与原始数据的对应性。神经网络模型的引入能够提高计算的全局一致性,并在语义分割中对局部特征和位置被高效获取。此外,Randla-Net融合了RANDomized LAyered points(简称RANDLA)的思想,可以抽取多级别多方向的特征,使得点云数据在语义分割中的处理更加准确。 总之,Randla-Net是一种快速、有效、准确的大规模点云语义分割方法,其优点在于可以处理复杂的大规模点云数据,同时在语义分割中能够提供更高的计算效率和更精确的结果。它的应用将会推动点云技术的发展,为智能驾驶、建筑、机器人、VR/AR等领域提供更加精确的三维场景建模工具。 ### 回答3: RandLA-Net是一种高效而准确的点云语义分割神经网络,专为应对大规模点云场景而开发。该网络的核心功能在于通过快速地对点云数据进行聚类、降采样和投影等操作,实现了对点云进行语义分割,并能够输出详细的分割结果。 RandLA-Net相对于传统点云语义分割算法的优势在于,该算法不但能够处理大规模点云数据,同时还利用了矩阵分解的方法来提高运行速度。因此,该算法在极端情况下也能实现快速和准确的分割,如在不同分辨率、不同大小和不同密度的点云数据上。 RandLA-Net的另一个创新点在于使用了自适应滑动窗口的方法,就是通过分析点云的特征分布,来自动选择和匹配最适宜的窗口大小,以此进一步提高分割效果。同时,该算法还考虑到了实际应用场景中存在的地面、建筑物等不同的目标物体,对各自进行分割和处理,以期达到更高的准确率。 总的来说,RandLA-Net是一种高效、准确、可扩展的神经网络,为卫星、城市规划、无人驾驶等领域提供了强大的支持。该算法的研究提供了新的思路,为点云语义分割界的研究者提供了很好的启示,也为工业界解决实际问题提供了新的思路。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值