3D目标检测

#眼镜&

已于 2024-05-19 14:27:16 修改

阅读量265

点赞数 6

分类专栏：人工智能文章标签： 3d 目标检测人工智能计算机视觉大数据

于 2024-05-14 20:01:30 首次发布

本文链接：https://blog.csdn.net/qq_45858803/article/details/138866265

版权

3D目标检测

基于图像的3D目标检测
基于点云的3D目标检测
基于多模态的3D目标检测
论文阅读和总结
- 1.VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
- 2.Pointnet: Deep learning on point sets for 3d classification and segmentation. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2017. 1）
知识点总计
方法小妙招
- 体素标准抽点
- 点云数据增强

基于图像的3D目标检测

鉴于图像提供了详细的纹理信息，许多算法从二维图像中推断出三维边界框。然而，基于图像的三维检测方法的准确性受到深度估计准确性的限制。

基于点云的3D目标检测

与基于图像的检测相比，激光雷达能提供可靠的深度信息，可用于准确定位物体并描述其形状。
点云与图像不同的是，由于三维空间采样不均匀、传感器的有效范围、遮挡和相对姿态等因素，激光雷达点云是稀疏的，而且点密度变化很大。为了应对这些挑战，许多方法都为点云手工制作了适合三维物体检测的特征代表有几种方法将点云投影到透视图中，并应用基于图像的特征提取技术其他方法则将点云栅格化为三维体素网格，并为每个体素编码手工制作的特征但是这种手工制作适合三维物体检测的特征代表并不是一个好的方法相较于现在的方法。然而，这些手工设计选择带来了信息瓶颈，使这些方法无法有效利用三维形状信息和检测任务所需的不变量图像识别[20]和检测[13]任务的重大突破在于从手工创建特征转向机器学习特征。
提出了一种端到端深度神经网络 PointNet，它可以直接从点云中学习点特征（C. R. Qi, H. Su, K. Mo, and
L. J. Guibas. Pointnet: Deep learning on point sets for 3d
classification and segmentation. Proc. Computer Vision and Pattern
Recognition (CVPR), IEEE, 2017. 1）

基于多模态的3D目标检测

多模态融合方法将图像与激光雷达相结合，以提高探测精度与仅使用激光雷达进行三维检测相比，这些方法的性能有所提高，尤其是对于小物体（行人、骑自行车者）或距离较远的物体，因为相机提供的测量数据要比激光雷达多出一个数量级。然而，由于需要额外的摄像头与激光雷达进行时间同步和校准，这限制了摄像头的使用，并使解决方案对传感器故障模式更加敏感。

论文阅读和总结

1.VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

1.VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

我们提出的 VoxelNet 是一种通用三维检测框架，如图 2 所示，它能同时从点云中学习判别特征表示，并以端到端的方式预测准确的三维边界框。我们设计了一种新颖的体素特征编码（VFE）层，通过将点特征与局部聚合特征相结合，实现体素内的点间交互。通过堆叠多个 VFE 层，可以学习复杂的特征来描述局部三维形状信息。具体来说，VoxelNet 将点云划分为等间距的三维体素，通过堆叠的 VFE 层对每个体素进行编码，然后通过三维卷积进一步聚合局部体素特征，将点云转换为高维体积表示。最后，一个 RPN 消耗体积表示，得出检测结果。这种高效算法既得益于稀疏点结构，也得益于体素网格上的高效并行处理。
在这里插入图片描述该架构可直接对稀疏的三维点进行操作，避免了人工特征工程带来的信息瓶颈。提出了一种实现 VoxelNet 的高效方法，这种方法既能从稀疏点结构中获益，又能在体素网格上进行高效并行处理。
从这张模型结构图中我们可以看出首先是将点云划分为体素，其次是使用VFE进行特征的提取，之后是使用三维卷积网络进一步聚合局部体素特征最后通过RPN得出检测结果。
在这里插入图片描述表示 V = {pi = [xi, yi, zi, ri]T∈ R4}i=1…t 为包含 t ≤ T 个激光雷达点的非空体素，其中 pi 包含第 i 个点的 XYZ 坐标，ri 为接收到的反射率。我们首先以 V 中所有点的中心点来计算局部平均值，记为 (vx,vy,vz)。然后，我们用相对于中心点的相对偏移量来增强每个点 pi，得到输入特征集 Vin = {ˆpi = [xi, yi, zi, ri, xi -vx, yi -vy, zi -vz]T∈ R7}i=1…t. 接下来，每个 ˆpi 都会通过全连接网络（FCN）转换到一个特征空间，在这里我们可以汇总来自点特征 fi∈Rm 的信息，以编码体素所包含的表面形状。FCN 由一个线性层、一个批处理归一化（BN）层和一个整流线性单元（ReLU）层组成。在获得点状特征表示后，我们对与 V 相关的所有 fi 使用元素最大池化（element