3D点云目标检测:VoxelNext解读

本文比较了通用检测器与VoxelNext在3D稀疏卷积中的改进,包括额外下采样增强感受野、体素删减提高效率和稀疏预测head的创新设计。实验结果显示VoxelNext通过这些优化提高了精度并实现了高度压缩。
摘要由CSDN通过智能技术生成

通用检测器 vs VoxelNext

一、3D稀疏卷积模块

1.1、额外的两次下采样

使用通用的3D sparse conv,包含4个stage,每个stage穿插常规稀疏卷积和子流形稀疏卷积,得到的特征分别为F1、F2、F3、F4。

VoxelNext的backbone在原有的基础上再增加两次下采样,分别得到F5,F6,目的是增大感受野

消融实验结果

从实验结果来看,直接使用原始的4stage结构接检测头后精度下降8.9,多加两次下采样后精度提升9.5。且从可视化效果来看额外的下采样使感受野确实增大了。

代码

1.2、稀疏体素删减

在backbone的第2个stage开头会有一个下采样,Voxelnext在下采样的时候计算体素的重要性,根据比例删掉不重要的体素。

重要性判断公式:直接计算体素所有通道特征的均值,然后经过一个sigmoid,输出的sorce作为重要程度。

消融实验:

前三次下采样使用删减策略,且删减比例为0.5.

代码

DynamicFocalPruningDownsample实现在pruning_block.py中。

二、稀疏体素高度压缩

进入检测head前,直接将F4、F5、F6体素压缩合并。

计算公式:

代码

三、稀疏预测head

与常规的3D目标检测head不同,Voxelnext直接使用稀疏的体素进行预测,训练的时候,靠近GT中心点的体素作为正样本,使用focal loss监督,可视化和统计发现,用来预测box的voxel不一定在box中心点,如下图

统计发现有72.8%的box的query voxel都不在中心点。

推理时使用sparse max pooling 代替NMS,具体过程是先对稀疏的Voxel预测一个score,再使用稀疏卷积的操作做max pooling,只保留max pool kernel里得分最高的voxel。

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GHZhao_GIS_RS

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值