3D Object Detection——Voxel based methods

最新推荐文章于 2023-10-27 16:30:13 发布

考拉喜欢吃火腿

最新推荐文章于 2023-10-27 16:30:13 发布

阅读量773

点赞数 1

分类专栏： 3D点云处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24505417/article/details/108800027

版权

3D点云处理专栏收录该内容

18 篇文章 14 订阅

订阅专栏

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

VoxelNet

端到端的3D目标检测网络，且仅使用3D LIDAR 点云数据就可以得到很好的精度。

网络结构包含三个过程：

1. Feature learning network

构造3D 网格，对输入的点云数据栅格化。整个点云的大立方体的深度、高度和宽度分别为 (D,H,W)，每个体素的深高宽为 ( d , h , w ) ，各个坐标上生成的体素格（voxel grid）的个数为D∗ = D/d，H∗ = H/h，W∗ = W/w，将所有点云按照划分好的网格分组；
对每个栅格随机采样，当栅格内点云数量多于T时，采样为T，节省空间和计算，同时也保证栅格之间点云数据平衡;
计算每个点的初始7维特征，原始的点云坐标和激光强度，以及减去均值后的坐标：
点云特征编码：用级联的Voxel feature encoding (VFE) layer 提取每个点的point-wise concatenated feature；

栅格特征编码：经过多层VFE以后，对体素格内所有点进行最大池化，得到一个体素特征 Voxel-wise feature。

4D 稀疏张量表示：C×D∗×H∗×W∗，C表示特征维度。设置随机采样的T=35，并且采用两个VFE层：VFE-1(7, 32) 和 VFE-2(32, 128)，最后输出尺寸是128×10×400×352。

2. Convolutional middle layers

对4D tensor 进行3D 卷积，对D方向上的像素进行降采样，经过middle layers 之后得到 64×2×400×352的输出，然后reshape到 128 × 400 × 352 变成3D tensor，与BEV视图上的栅格尺寸对应。

这一步相当于把3D 栅格拍扁，变成一个平面栅格，每个栅格是128维度特征。便于后续RPN进行2D卷积。

3. Region proposal network

RPN的输入与二维图像一样，128个通道的H' x W'图像，经过三次卷积+1次concate得到最后的特征，用于提取每一个anchor的概率值和回归值。三次卷积block的首次卷积都是步长为2的3x3的卷积，后续都是步长为1的3x3卷积。（输入通道，输出通道，kernel_size, stride_size, padding_size)。

loss

整体loss = 正样本分类loss+负样本分类loss+正样本回归loss

整体网络框架如下：

参考：https://blog.csdn.net/hit1524468/article/details/80023901

考拉喜欢吃火腿

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。