3D Object Detection——Voxel based methods

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

 

VoxelNet

端到端的3D目标检测网络,且仅使用3D LIDAR 点云数据就可以得到很好的精度。

网络结构包含三个过程:

1. Feature learning network

  • 构造3D 网格,对输入的点云数据栅格化。整个点云的大立方体的深度、高度和宽度分别为 (D,H,W),每个体素的深高宽为 ( d  , h , w ) ,各个坐标上生成的体素格(voxel grid)的个数为D∗ = D/d,H∗ = H/h,W∗ = W/w,将所有点云按照划分好的网格分组;
  • 对每个栅格随机采样,当栅格内点云数量多于T时,采样为T,节省空间和计算,同时也保证栅格之间点云数据平衡;
  • 计算每个点的初始7维特征,原始的点云坐标和激光强度,以及减去均值后的坐标:
  • 点云特征编码:用级联的Voxel feature encoding (VFE) layer 提取每个点的point-wise concatenated feature;

  •    栅格特征编码:经过多层VFE以后,对体素格内所有点进行最大池化,得到一个体素特征 Voxel-wise feature。                                                     

                                                                               

  •  4D 稀疏张量表示:C×D∗×H∗×W∗,C表示特征维度。设置随机采样的T=35,并且采用两个VFE层:VFE-1(7, 32) 和 VFE-2(32, 128),最后输出尺寸是128×10×400×352。
  •  

2. Convolutional middle layers

对4D tensor 进行3D 卷积,对D方向上的像素进行降采样,经过middle layers 之后得到 64×2×400×352的输出,然后reshape到 128 × 400 × 352 变成3D tensor, 与BEV视图上的栅格尺寸对应。

这一步相当于把3D 栅格拍扁,变成一个平面栅格,每个栅格是128维度特征。便于后续RPN进行2D卷积。

 

3. Region proposal network

RPN的输入与二维图像一样,128个通道的H' x W'图像,经过三次卷积+1次concate得到最后的特征,用于提取每一个anchor的概率值和回归值。三次卷积block的首次卷积都是步长为2的3x3的卷积,后续都是步长为1的3x3卷积。(输入通道,输出通道,kernel_size, stride_size, padding_size)。

loss

整体loss = 正样本分类loss+负样本分类loss+正样本回归loss

 

整体网络框架如下:

参考:https://blog.csdn.net/hit1524468/article/details/80023901

### 回答1: “Voxel Transformer for 3D Object Detection”指的是一种利用体素变换技术进行三维物体检测的方法。通过将三维物体表示为体素化的三维网格,然后对每个体素进行特征提取和变换,最终通过分类和回归来检测物体。相较于传统的基于点云的三维物体检测方法,该方法在处理时间和准确性等方面都有所提升。 ### 回答2: Voxel Transformer是目前在三维物体检测领域中被广泛运用的一种方法。该方法主要的思想是将三维点云数据转化为三维体素表示,然后将其输入到Transformer网络中进行学习和预测。 在Voxel Transformer中,首先需要将原始的三维点云数据转化为三维体素表示。这里所谓的体素是三维空间中的一个像素点,每个体素包含三维坐标信息和颜色信息。将点云数据转化为体素表示之后,可以将其输入到Transformer网络中进行学习和预测。 Transformer网络是一种广泛应用于自然语言处理领域的深度学习模型,它能够对输入的序列数据进行编码和解码,从而实现序列到序列(seq2seq)的转换。在三维物体检测中,Voxel Transformer网络将体素表示的三维数据序列作为输入,通过多层Transformer模块进行特征提取和学习,得到输出序列,其中包括物体的边界框、类别和位置等信息。 相比于传统的点云和图像表示方法,Voxel Transformer具有很多优点。首先,体素表示可以避免点云数据中的噪声和不完整性,使得学习更加稳定和准确。其次,Transformer网络可以对序列数据进行高效的学习和预测,具有较高的精度和鲁棒性。最后,Voxel Transformer还可以实现端到端的三维物体检测,避免了传统方法中涉及多个模块和手工调节参数的问题。 总之,Voxel Transformer是一种非常有效的三维物体检测方法,具有很大的应用潜力。在未来的研究中,还可以进一步探索如何优化数据表示和网络结构,提高检测精度和速度,为实现智能视觉和自动驾驶等领域的应用提供更好的解决方案。 ### 回答3: Voxel Transformer是一种用于3D目标检测的新型神经网络架构,它能够准确地识别出3D物体的形状,大小和方向。它的主要思想是在3D体素空间中对物体进行处理和转换,并在每个体素位置处生成局部特征。这种方法允许网络更好地理解三维对象之间的几何关系,并更准确地检测物体。 Voxel Transformer的关键组件是可变形卷积层(deformable convolution),它允许神经网络精确地调整卷积核的形状以适应数据的变化。可变形卷积层还能够学习各种形状的物体,并帮助网络进行更准确的3D目标检测。 Voxel Transformer还采用了注意力机制,用于提高网络对物体的关注度。这意味着网络能够更好地关注那些具有重要意义的部分,并更准确地检测出物体的边界和表面。 与传统的3D物体检测方法相比,Voxel Transformer具有更高的精度和更高的效率。它可以准确地检测出各种形状和大小的3D物体,并能在复杂的环境中进行高效的处理。它的出现共同推动了计算机视觉领域的发展,并提供了更多实际应用场景的可能性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值