paper | 发表地方 | 代码链接 | Nuscenes_test(NDS) | Nuscenes_val(NDS) | 备注 |
---|---|---|---|---|---|
DistillBEV | ICCV2023 | pytorch代码 | 0.612 | 0.547 | 蒸馏学习 |
MetaBEV | ICCV2023 | pytorch代码 | - | 69.8 | 模态缺失,对齐 |
UniBEV | ICCV2023 | - | - | 58.7(avg(L+C,L,C)) | 模态缺失,对齐 |
CMT | ICCV2023 | pytorch代码 | 0.741 | 0.729 | 对齐,训练时模态缺失 |
GraphAlign | ICCV2023 | - | 0.706 | - | 对齐 |
模态缺失:当某个模态的数据缺失的时候(没有图像或者Lidar数据)模型仍然可以处理,在进行训练的时候对于多模态的数据随机缺失。
对齐:在设计模型的时候考虑利用某种方法来对齐两个模态的数据。(MetaBEV和UniBEV都是通过BEVQuery来达到对齐的目的,只是Query使用的位置不同,CMT由于使用的是PETR中图像到BEV空间的转换,图像特征不是BEV类型的(hwc),因此设计了一种共享编码来达到隐式对齐的目的),GraphAlign中通过利用与自己相近的K个激光雷达点以及对应位置的k个图像特征点拼接后构成融合特征,之后利用Self-attentino来对该融合特征进行进一步融合,对该k个特征进行自适应融合。原来是一对一的来进行融合,现在相当于进行多对一,通过提高冗余性来间接达到对齐的目的。
蒸馏学习:用于Lidar的特征对图像特征进行蒸馏,使得图像特征学到包含几何信息来更好地分类和回归