【论文精读】Exploring the Causality of End-to-End Autonomous Driving

背景信息

团队:百度
代码:https://github.com/bdvisl/DriveInsight
论文思想简述:这篇论文并不是提出SOTA模型,而是提出了一些评估模型的方法。

目前已有的分析方法

  1. 大语言模型。VAQ来提供解释性,比如DriveVLM,问题是存在inaccurate explanations(这个问题怎么证明?
  2. 因果注意力模块,比如NEAT(Neat: Neural attention fields for end-to-end
    autonomous driving,2021, ICCV)(我没看过,不懂
  3. 反事实解释conterfactual explanation。比如Octet(Octet:
    Object-aware counterfactual explanations,2023,CVPR)(我没看过,不懂
  4. 辅助任务auxiliary tasks。辅助输出目标检测、语义分割、障碍物预测等。
  5. 因果鉴定casual identification。多种输入可能导致因果迷惑casual confusion,PlanTF等在尝试解决。
    本文先定性分析因果因素causal factors,然后定量分析每个因素的贡献。

模型评估方法

先自己搭了一个模型

  1. image encoder -> Resnet with fetrure pyramid network
  2. lidar encoder -> 3D sparse convolution + hourglass vonvolution
  3. multi-modal fusion -> fuse image and lidar input -> 2D convolution + Squeeze and Excitation blocks -> BEV_t
  4. temporal fusion -> 多个历史时刻下BEV -> convolution + SE blocks
  5. planning decoder -> fused BEV + ego vehicle status + environment(HD, obs, traffic lights, stop signs) + navigation(command, target point, routing)

模型结果评估

  1. RC, route completion
  2. IS, infration score
  3. DS, driving score,上述之乘积

模型因果评估

消融实验

BEV,routing,目标位置必不可少(为什么模型要target point呢?这是不是提示太明显了
历史速度信息可以去掉,没啥影响

反事实干涉conterfactual intervention

  1. 如果输入错误的routing和目标位置,模型是会出错的the behavior of the ego vehicle can be successfully intervened;
  2. 当前速度有很大影响。很无聊,肯定会学错的;
  3. Map没啥影响,因为BEV已经给足够的信息了;
  4. Traffic light有很大影响。废话。

可视化分析

  1. 不同token的梯度,反应当前的关注程度(为啥得是梯度呢?
  2. 不同head中,不同token的梯度,反应不同head对信息的倾向程度preferences
  3. 激活地图可视化activation map visualization。(看不明白为什么要对p求偏导)。反映对场景中不同区域的关注程度。

评价

  1. 有些方法早已经在用了(消融实验)
  2. 有些点很小(反事实干涉,名字比较高大上)
  3. 可视化分析的充分性如何证明?
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值