论文标题:VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
挺经典的一篇文章,苹果公司出品。
挺久前看的了,感觉需要记录一下结构,方便以后查阅。
网络架构分为三个部分: (1) Feature learning network, (2) Convolutional middle layers, and (3) Region proposal network
Feature learning network
这部分作者提出了著名的VFE模块,这个模块被后续的网络广泛的魔改应用,感觉需要仔细记录一下:
首先将点云voxel化,对于voxel内的点进行随机采样到T个。随后利用FCN对于单个点进行编码,当然编码前对于点进行本地化处理,随后对于提取到的特征进行max操作,得到的特征与每个point进行特征concat拼接。
这个操作进行了多次的VFE模块叠加,最后max操作得到每个voxel的feature作为输出。由此我们对于voxel图进行了特征的编码。
Convolutional Middle Layers
没啥好说的 做的还是2d卷积,实际上是把平面内voxel的点进行了卷积,随后进行了不同的feature拼接。
Region Proposal Network
1x1的卷积 输出预测图
思考
早期3d目标检测作品,写这篇文章主要是方便自己以后查阅。
VFE对于单个voxel内的点的特征提取比较有用,为后续许多网络使用。
对比一下pointnet++:
文章的划分voxel操作像不像sa层来进行特征提取,后面的特征融合voxelnet主要依靠2d卷积而pointnet++则依靠sa层后插值得到。