BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

背景

对于现有的BEVDet方法,它对于速度的预测误差要高于基于点云的方法,对于像速度这种与时间有关的属性,仅靠单帧数据很难预测好。因此本文提出了BEVDet4D,旨在获取时间维度上的丰富信息。它是在BEVDet的基础上进行拓展,保留了之前帧的BEV特征,并将其进行空间对齐后与当前帧对应BEV特征连接。在nuscenes数据集上证明其可行性发现,不仅速度误差mAVE从0.909降低到0.337,在其他分数也有提升,mAP提升2.6%,NDS提升了8.4%,达到了42.1%mAP与54.5%NDS。

贡献

  • 在BEVDet的基础上提出了时序融合,提出了空间对齐模块,根据自车移动矩阵,将当前帧的坐标线性二插值回到前一帧特征图取值。不过融合上只是采用了拼接操作。
  • 提出了额外BEV编码器,原理很简单,但是使得BEV特征图精细化,能够更好适用于后续的时序融合模块了。

具体方法

总体架构

这里使用的方法很简单,架构就是BEVDet,为了捕获时间信息,使用上一帧的BEV特征与当前特征图进行合并,在这之前,还增加了对齐操作,而融合手段这里没有深入探索,就是进行拼接操作。此外,由于视角转换得到的特征图太过粗糙,因此提供了一个额外BEV编码器进一步加工,再交给后续融合。

空间对齐

这里有三个坐标系, O g − X Y Z O_g-X Y Z OgXYZ, O e ( T ) − X Y Z O_{e(T)}-X Y Z Oe(T)XYZ, O t ( T ) − X Y Z O_{t(T)}-X Y Z Ot(T)XYZ分别代表全局坐标系、自车在T时刻的坐标系,在T时刻的目标坐标系;对于目标物体的位置为 P x ( t ) P^x(t) Px(t),其中x∈{g,e(T),e(T-1)},代表坐标系,而t∈{T,T-1},因为我们只进行两帧的融合; T s r c d s t T_{src}^{dst} Tsrcdst代表从src坐标系到dst坐标系的变换矩阵。
相比于学习速度,这里选择预测物体两帧间的位移,并且对于位移要求与自车移动解耦,这是因为自车移动会使得位移变得复杂。举例来说,静态的物体在自车运动下,在自车坐标系下看是移动的,这是由于自车坐标系是以自车为中心。如果按照下面式子则会导致位移与自车移动相关。
P s e ( T ) ( T ) − P s e ( T − 1 ) ( T − 1 ) = T g e ( T ) P

bounding box注释是用于多标签物体识别的一种利用方法。在多标签物体识别任务中,我们需要同时识别图像中的多个物体,并为每个物体分配一个或多个标签。bounding box注释是指在图像中标记物体位置的矩形框。 利用bounding box注释进行多标签物体识别可以有以下几个步骤。首先,我们需要一个包含bounding box注释的训练数据集。每个bounding box都与一个或多个物体标签相关联。然后,我们可以使用现有的深度学习模型,如卷积神经网络(CNN),来训练多标签物体识别模型。在训练过程中,我们可以利用bounding box注释来指导模型学习物体的位置和形状信息。 在测试阶段,当我们给一个新的图像输入到训练好的模型中时,模型可以通过预测每个bounding box内是否存在某个物体来实现多标签物体识别。如果一个bounding box内存在某个物体,则将相应的标签分配给该物体。这样,我们可以同时识别图像中的多个物体,并为每个物体分配正确的标签。 bounding box注释对于多标签物体识别任务非常重要。它提供了物体位置和形状的准确信息,有助于模型更好地学习每个物体的特征。通过利用bounding box注释,我们可以训练更准确和可靠的多标签物体识别模型,提高模型的性能和应用的准确性。同时,bounding box注释也可以用于其他与物体位置有关的任务,如目标跟踪和姿态估计等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值