Pointpillars（一）模型结构

假装是程序员

已于 2022-07-15 16:55:24 修改

阅读量1.5k

点赞数 1

分类专栏：目标检测自动驾驶文章标签：深度学习目标检测自动驾驶

于 2022-07-15 16:12:59 首次发布

本文链接：https://blog.csdn.net/u013952812/article/details/125785233

版权

目标检测同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

自动驾驶

1 篇文章 0 订阅

订阅专栏

1.模型结构

Pointpillars接收点云作为输入，计算输出带方向的3D目标框，模型结构可以分为三个部分：

（1）Pillar Feature Net：将输入的点云转换为稀疏伪图像;

（2）2D Backbone：使用2D的CNN Backbone处理伪图像，得到2维特征图;

（3）SSD Detection Head：使用SSD检测头，检测和回归3D边界框。

1.1 Pointcloud to Pseudo-Image

为了使用2D CNN backbone，首先需要将3维点云信息转为2D的伪图像。

（1）针对一帧输入点云图，在鸟瞰图下对平面进行网格化分割，z方向不进行分割，得到 $H\times W= P$ 个柱形分割，这样分割出来的柱子叫做pillar;

（2）为了使最终得到整齐的特征图，提取非空的 $P$ 个pillar，在每个pillar中采样 $N$ 个点，当点数大于 $N$ 时进行随机采样，当点数小于 $N$ 时则用 $0$ 补齐，论文中取 $N= 32$ ;

（3）对柱子中的每个点取 $(x,y,z,r,x_{c},y_{c},z_{c},x_{p},y_{p})$ 9个维度，其中 $(x,y,z)$ 为该点的坐标值， $r$ 为反射率， $(x_{c},y_{c},z_{c})$ 为该点到pillar内所有点的平均值的距离， $(x_{p},y_{p})$ 为该点到网格中心点的距离，这样每个点都编码成了 $D= 9$ 个维度。

这样一个点云样本就表示成 $(D,P,N)$ 尺寸的张量，其中 $P= H\times W$ 为pillar的个数， $D= 9$ 为每个点的维度， $N$ 为每个pillar中点的个数，得到点云的pillar表示的张量。

（4）得到点云的pillar表示的张量后，需要对其进行特征提取，使用简化的PointNet，对每个pillar中的点使用多层感知机（线性全连接层+BN+Relu）从 $D$ 维学习出 $C$ 维，张量尺寸变为 $(C,P,N)$ ，论文中 $C= 64$ ，随后对每个pillar使用Max Pooling，得到 $(C,P)$ 尺寸的特征图，。

（5）对 $(C,P)$ 尺寸的特征图，P展开为 $(H,W)$ ，得到 $(C,H,W)$ 形式的特征表示。

1.2 Backbone

Backbone包含2个子网络：

（1）a top-down network ，用于生成不同尺度的特征图，网络由一系列的Block（S，L，F）组成，S为stride，L为3×3的卷积，F为输出通道，每个Block都包含BatchNorm和ReLU;网络包含3个Block：Block1（S，4，C），Block2（2S，6，2C），Block3（4S，6，4C）。

（2）a second network，通过上采样（deconv）和拼接操作得到特征图，top-down网络的每个Block的输出都会进行上采样，Up $(S_{in},S_{out},F)$ 中 $S_{in}$ 为输入stride、 $S_{out}$ 为输出stride，F为输出通道，top-down的每个Block对应的上采样操作：Up1 $(S,S,2C)$ ，Up2 $(2S,S,2C)$ ,Up3 $(4S,S,2C)$ ，使用2D转置卷积得到上采样特征图，随后对特征图进行BN和ReLU操作，所有特征图拼接，得到最终的特征图。