点云检测之CenterFormer: Center-based Transformer for 3D Object Detection

CenterFormer是中弗罗里达大学在2022年发表在ECCV上的一篇论文
论文地址 :CenterFormmer


前言

  伴随着 Transformer 在图像领域上的快速发展,基于 query 的 Transformer 在图像任务上具有巨大的潜力。
  本文提出了一种基于中心的 Transformer 网络。通过中心热力图来挑选候选的物体中心点,然后用这些候选中心点的特征信息来作为 Transformer 中的 query 来进一步增强物体的特征信息并预测边界框信息。同时为了进一步聚合多个帧的特征,设计了一种通过交叉注意力融合特征的方法。
  关于作者对论文的解读可以参考:CenterFormer


一、Preliminaries

Center-based 3D Object Detection

  通过预测BEV特征图上的热力图作为每个 object 的中心点,用这些候选中心点的特征信息来预测边界框信息。CenterNet 正是基于这种方法实现的,而本文参考的 CenterPoint 也是基本上沿用了CenterNet 方法,在其之上做一些拓展工作。

Transformer Decoder

  Transformer 也是近些年来大火的网络架构,也有很多工作将Transformer 拓展到目标检测之中,DETR正是第一个将 Transformer 成功整合在目标检测模型中,在此基础上又又很多工作将其进行优化,Deformable DETR正式改进方法之一。这项工作也对本篇论文提供了参考。
  关于Trandformer和DETR的解读可以参考沐神的论文精读视频:Transformer论文逐段精读【论文精读】DETR 论文精读【论文精读】,对 Transformer 模型的理解可以参考:Transformer模型详解

二、Center Transformer

  通过使用VoxelNet算法,对原始点云进行特征提取,然后压缩到BEV空间,生成BEV特征。然后将BEV特征编码为多尺度特征图并预测物体的中心点。通过 Transformer decoder 聚合来自其他物体中心点和多尺度特征图的特征,通过Regression Head 输出最后的 bounding box 信息。网络架构如下图所示:
在这里插入图片描述

Multi-scale Center Proposal Network

  DETR 中 Transformer 为了减少计算成本会将特征图进行压缩,将特征图进行压缩会导致网络失去检测小物体的细粒度的特征。所以本文提出了 multi-scale center proposal network (CPN) 代替 Transformer 中的 encoder。基于 Deformable DETR 生成一个多尺度特征,可以在后面的 Transformer 中有更大的感受野去搜素对应的信息。在每个尺度的末尾,添加一个卷积块注意模块(CBAM),以通过通道和空间注意来增强特征。 我们使用最大尺度特征图来预测对象中心的热力图。

Multi-scale Center Transformer Decoder

  Transformer cross-attention中 K、V是来自某个模态的全部特征,与传统的 Transformer decoder layer 不同的是,本文将学习特征的范围由全局特征转变为限制在每个尺度的 object 对应的中心位置附近的一个 3×3 小窗口中,由于多尺度特征,能够捕获 object 中心周围的广泛特征。Multi-scale cross-attention 可以表示为:
在这里插入图片描述
  具体的架构如下图所示:
在这里插入图片描述

Multi-scale Deformable Cross-attention layer

  参考 Deformable DETR,通过使用线性层学习所有 head 和尺度上 object 中心位置 p 的偏移 Δp。 p + Δp 处的特征将通过双线性采样被提取为交叉注意力关注特征。 同时使用线性层直接从 object queries 中学习注意力权重。 Multi-scale deformable cross-attention 可以表示为:
在这里插入图片描述
  针对 Transformer decoder layer 作者提出了上述两种不同的方案,这两种方案的目的均为减少网络的计算开销。

三、Multi-frame CenterFormer

  多帧常用于3D检测以提高性能,Transformer 结构由于注意力机制更适合融合。使用相同的骨干网络单独处理每个帧。 前一帧的最后一个BEV特征被转换为当前坐标,并与 Center head 和 cross-attention 中的BEV特征融合。
  由于对象的移动,object 的中心可能在不同的帧中发生移动。 由于我们只需要预测当前帧中的中心,因此我们在 Center head 中使用 Spatial-aware Fusion 来减轻未对准误差。具体架构如下图所示:
在这里插入图片描述
  在 cross-attention 中,使用中心点的位置在与当前帧对齐的先前帧中查找相应特征。针对于多帧处理中,deformable cross-attention 相较于 cross-attention 可以模拟任何级别的运动,并且更适合长时间范围的情况。

四、Loss Functions

  使用 focal loss 和 L1 损失进行热力图分类损失和回归损失。同时添加了 IoU 校正损失和角点分类损失。本文的损失函数为:在这里插入图片描述
  本文并未像DETR采用匈牙利算法,而是模拟 CenterPoint 采用了NMS方法,减少匈牙利算法在三维运算中的运算开销。


总结

  这篇论文和 TransFusion 中 TransFusion-L的思想相类似,不考虑 mutli-frame 的情况下,主要是加入了 multi-scale 的概念已经对 backbone 以及K、V的选取方式做了相应的调整,onject queries 就可以从不同的尺度上的特征图上聚合K、V,最后的效果又有所提高。

  本文是自己对论文的理解,如有不同见解,欢迎讨论、指正。

  • 16
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值