Multi-Modal Fusion Transformer for End-to-End Autonomous Driving
Paper
Code
摘要:如何集成互补传感器的表示以实现自动驾驶?基于几何测量的传感器融合在目标检测和运动预测等感知任务中显示出巨大的潜力。
但是,对于实际驾驶任务,3D场景的全局上下文是关键,例如,交通灯状态的变化可能会影响距离该交通灯几何距离的车辆的行为。因此,仅几何图形可能不足以有效融合端到端驾驶模型中的表示。在这项工作中,我们证明了基于现有传感器融合方法的模拟学习策略在存在高密度动态代理和复杂场景的情况下可以执行,这些场景需要全局上下文推理,例如在非受控交叉口处理来自多个方向的迎面而来的交通。因此,我们提出TransFuser,一种新型的多模态融合变换器,利用注意力来整合图像和激光雷达表示。我们使用CARLA城市驾驶模拟器在涉及复杂场景的城市环境中实验验证了我们方法的有效性。与基于几何的融合方法相比,我们的方法实现了最先进的驾驶性能,同时减少了76%的碰撞