VoxelNet: VFELayer 和 PointPillar: PFN_Layer

最新推荐文章于 2024-08-19 08:10:26 发布

THE@JOKER

最新推荐文章于 2024-08-19 08:10:26 发布

阅读量917

点赞数 1

分类专栏：无人驾驶

本文链接：https://blog.csdn.net/W1995S/article/details/115213274

版权

无人驾驶专栏收录该内容

18 篇文章 3 订阅

订阅专栏

voxelnet是通过VFE获得每个voxel的特征，然后采用3DCNN获得全局特征
pointpillar模型训练上，car单独训一个模型，ped和cyc单独训一个模型

特征提取网络

这个模块是把无序的点云转换成有序的结构化的pseudo image格式，也就是说，输入的是n x 4的一帧点云，输出的是[C, H, W]的特征图。

这里可以对比voxelnet，输入的同样是n x 4，输出的[C, D, H, W]。这是因为voxelnet在划分格子的时候，在z方向（高度方向）也划分了格子，这样划分更加精细，但是就需要引入3d卷积来建模z方向的voxel之间的关系。

既然一个voxel内的点可以通过pointnet去建模点之间的关系，那么高度之间的关系是不是也可以通过pointnet去建模，而不是引入计算量更重的3d卷积？基于这样的想法，pointpillar在划分格子时，不对z方向划分，只在x,y上，这样，就可以分出H*W个pillar。对于每个非空的pillar，采用类似voxelnet的处理办法，设定一个固定的值T，若pillar内点的个数超过T，则随机sample到T，若点数小于T，则padding 0。（当然，这个T的值肯定是要比voxelnet的值大的，否则信息损失就太多了）。

同时，对于每个点，原来的特征维度是4（x, y, z, r），在划分完pillar进行填充/sample之前，会扩展每个点的特征维度到9（新增了xc, yc, zc, xp, yp5个维度，分别表示该点所在pillar的质心的坐标，以及该点在xy方向上与质心的offset)。

这样，每个pillar就可以表示成[T, 9]，对每个点采用voxelnet的VFE提取特征，这样，每个pillar就有[T, C]的特征输出，再对T维度取max操作，得到C维的特征向量。每个pillar都有C维的向量，整个pseudo image则有[C, H, W]的shape。

参考（感谢）
https://blog.csdn.net/qq_42173959/article/details/105727368