自动（智能）驾驶系列|（二）环境感知与识别（2）

本文链接：https://blog.csdn.net/m0_46611008/article/details/125716667

承接上文，本文主要涉及基于激光雷达的目标检测，主要分为对点云的概述和点云神经网络两部分。

1.点云的概述

2.点云深度学习

2.1PointNet及PointNet++

2.2VoxelNet

2.3SECOND

2.4PointPillars

1.点云的概述

本部分，我们研究目标是对激光雷达目标检测进行研究，那么研究对象就是由激光雷达得到的稠密的点云。

首先研究点云我们类比于对图像的处理，点云具有无序性，他没有严格的例如像素的坐标关系，也没有像素的相邻像素的概念具有稀疏性，所以起初我们研究点云还是非常困难的。对于点云的无序性，我们可以通过构建八叉树和k-d树建立关系，从而有序化；点云没有相邻但是有临域的概念，通常采用k近邻（及欧式距离最近的k个点）和半径临域（r内的所有点）。目前的点云有多种表征形式如单个点构成的点云（pointCloud）、由点三角化得到的三角mesh网点等等，点云的常见格式有.pcd和.ply等等。

这里我们常用于处理点云相关的库是PCL（pointcloud Librariy）

Point Cloud Library | The Point Cloud Library (PCL) is a standalone, large scale, open project for 2D/3D image and point cloud processing.The Point Cloud Library (PCL) is a standalone, large scale, open project for 2D/3D image and point cloud processing.https://pointclouds.org/包含了多种对于点云处理的操作。

和图像领域一样我们也是通过法向量变化来判断边界，也分为单点特征（如位置、强度、法线、曲率）、局部特征（PFH、FPFH、SHOT等）、全局特征（VFH）等。

通过这些特性我们可以实现点云的特征点提取、match以及匹配等，可以基于特征来识别物体，下图是通过VFH聚类查询得到模型相似性最高的几个模型：

传统点云我们就说到这里。

2.点云深度学习

先放上3D图像分类、分割的发展图：

目前主流的对点云处理的方法有三种：point wise的（例如PointCloud系列）、体素化的（例如VoxelNet等）以及伪图像法（例如BEV方法）

2017年可以说是点云深度学习具有里程化的一年、PointNet的出现代表了以点云为处理对象的点云深度学习处理方法的诞生、苹果的VoxelNet则代表体素化处理的先河。

2.1PointNet及PointNet++

我们先来说PointNet，下面面是其网络结构，是比较简单的。

输入点云，通过Transformer-net保证点云位置都是一样的姿态保证匹配时的对应关系（后面证明这个网络加不加作用不大），通过一个权值共享的mlp，输出为n*64的feature map，再进行空间位置调整，再经过一个mlp扩维，输出n*1024，再通过max pool操作（文中最重要的操作）提取了1024维度的global feature再通过mlp完成分类任务，若是分割任务，则直接将提取到的global feature复制n份，和n*64的结果直接concat，在通过两个mlp，调整输出为n*m，每个输出的点都有m个socre用于分类。

PointNet咋ShapeNet上取得了较好的成果，但是缺点显而易见，对于局部特征没有很好的体现（Point wise）。而且对与空间中各个位置使用PointNet由于点云的稀疏性使得效率不高。

同年 Charles Qi又改进了PointNet ，提出了PointNet++：

对比PointNet，PointNet++的改动有，通过sampling和grouping构建局部邻域关系，不是直接采用maxpooling而采用逐级的降采样（Set Abstraction）得到不同层次局部及全局feature；在分割任务结合Skip connection进行上采样，多次使用pointnet结构输出全局的score。

在面对可能对于较为稀疏地方作用不佳的问题，提出了两种解决方法：

实际上是一个Encoder结构：

MSG：对于每层的中心点，进行不同半径的特征搜索，这样可以得到大小不一的同心球，再将结果拼接起来，这样最大的问题是消耗太大（epensive）it runs local PointNet at large scale neighborhoods for every centroid point，原文中这么描述。

对于MRG：则是对于两层的拼接，如上图右边的，是由两个vector拼接而成，分别对应两级（层）的特征点，左边的来源于更低层的子区域的特征的整合，而右边的则是直接通过单个PointNet对local（第二层）进行了特征的提取，也就是对应的Multi-Resolution。所以local（第二层）的点云密度比较低的时候，那么第一层由于是对第二层的提取（更加稀疏）显得更加不可靠，这时我么就降低第一层的权重而增加第二层的权重；相反的情况（当密度较高时），第一个向量因为反映了更低层级的features，所以可以提供更好的细节信息，就具有了在较低的级别上递归地检查较高分辨率的能力。这个效率更高，也是他们采用的方法。

在分割任务重，采用点云的反向插值：

再通过skip connection 这样就有了除了上一层的特征还有了local的信息，这样就有了全局point wise和local的信息（features）。

分类任务效果：

分割任务效果：

时间：

速度还是比较慢的。后续Charles Qi对其修改又有了 F-PointNet等等。

2.2VoxelNet

接下来说VoxelNet

是一种端到端的网络，不需要经过特征工程。文中也提到了PointNet及++，指出其需要很高的计算以及内存。受到广泛使用的RPN网络的启发，他们也想尝试这种方法，但是使用RPN网络要求数据需要稠密以及有组织性，显然直接拿到的激光雷达点云是不满足的。他们通过提出voxel feature encoding（VFE）layer使得体素中的点和点缠身联系，使用多个VFE层提取更加精细的3D特征。

Voxel Net将点云划分为空间中大小相等的3D体素块，使用堆叠的VFE层对美个体素编码，再通过三维卷积提取到local features，将点云转化为高纬度的体素，最后通过RPN网络，产生探测结果。如下图，分为三个部分。（也可从图上看出不同空间中的稀疏性不一）

其最大的创新点就是创建了VFE layer，计算local 均值，求中心点，再通过偏移量表示每个点，通过FC层给每个点进行了编码，再通过 element wise的max pooling得到特征向量，再concat编码后的V，得到最后的features。

中间卷积层则都是由3D卷积、BN、和ReLU构成的。获取 voxel wise的features。

Conv3D(128, 64, 3, (2,1,1), (1,1,1)),
Conv3D(64, 64, 3, (1,1,1), (0,1,1))，
Conv3D(64, 64, 3, (2,1,1), (1,1,1))
最终得到的tensor shape是（64，2，400，352）对Z维度进行了压缩，使得其变成和图像格式相似的三维。

RPN网络架构（分为3个block，进行了三次的FCN全卷积层，通过反卷积变成相同大小的特征图）：

每种类别都有自己对应的网络，这个是其中一类（例如车）的结构，输出为分类的结果（channel为2，及RPN对应的2个anchor，对于车使用了90度和0度的两个anchor）以及anchor的回归结果（由于3D anchor，2*7，7代表了x,y,z,w,h,l六个方向的偏移量以及一个角度偏移量（相对于0度或者90度））。

人、车、骑手采用了不同的anchor策略和区分正负样本的IoU策略。在输入前做了数据增强。