PRIMEDrive-CoT：驾驶场景中不确定性感知目标交互的全新思维链框架~

自动驾驶之心

于 2025-04-11 15:48:46 发布

阅读量256

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247660977&idx=1&sn=90399345894f100178818c40f6a31110&chksm=cfbaafa3f43d2f89d5f949f8b6787289bfc08acd89fa132922c58090bc64c1567b682b843ad5&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

PRIMEDrive-CoT

论文标题：PRIMEDrive-CoT: A Precognitive Chain-of-Thought Framework for Uncertainty-Aware Object Interaction in Driving Scene Scenario
论文链接：https://arxiv.org/abs/2504.05908

核心创新点：

1. 贝叶斯图神经网络（BGNN）驱动的不确定性建模

首次将BGNN应用于驾驶场景的物体交互推理，通过概率图结构建模车辆-行人、车辆-车辆间的动态交互。结合Shannon熵与偏航角偏差量化检测不确定性，并引入接近度感知风险指标（基于指数衰减函数），实现对潜在威胁的优先级排序。

2. 可解释的链式思维（CoT）推理机制

通过分阶段的CoT模块生成结构化解析（如"减速因行人接近与前车急刹"），同步融合Grad-CAM可视化注意力图，显式关联决策依据与多模态输入（LiDAR点云与RGB图像），确保黑箱模型的透明性。

3. 多模态特征增强与轻量化部署

采用改进的MVX-Net架构实现LiDAR点云体素化与多视角RGB特征融合，在保持3D检测精度（IoU 78%）的同时，通过RGB验证机制降低误检率。推理速度达18.7 FPS（单RTX 3090），满足实时性需求。

MIAT

论文标题：MIAT: Maneuver-Intention-Aware Transformer for Spatio-Temporal Trajectory Prediction
论文链接：https://arxiv.org/abs/2504.05059

核心创新点：

1. 机动意图感知Transformer架构（MIAT）

提出Transformer-based时空交互建模，替代传统LSTM，通过自注意力机制（self-attention）捕捉车辆轨迹的长程时空依赖，解决LSTM在长序列处理中的梯度消失与效率瓶颈。

2. 多模态机动意图融合机制

引入六类驾驶意图分类（横向：车道保持、左/右换道；纵向：加速、减速、匀速），通过动态意图概率分布（softmax分类）与时空特征融合（soft attention），实现意图感知的轨迹预测。

3. 可调节损失加权策略

设计联合优化目标函数(L = + )，通过控制机动损失权重（λ）平衡短期精度与长期预测鲁棒性。实验表明，高权重（如200x）显著提升长时域（5秒）预测精度（+11.1%），验证意图建模对复杂行为长期演化的关键作用。

4. 动态交互依赖建模（DID模块）

采用多头自注意力捕捉车辆间交互的时序相关性，突破传统方法对静态交互假设的局限，动态建模邻车影响随时间的变化。

5. 高效并行计算优化

利用Transformer的并行特性，结合GPU加速，实现实时轨迹预测（50Hz以上），满足自动驾驶系统的低延迟需求。

DDT

论文标题：DDT: Decoupled Diffusion Transformer
论文链接：https://arxiv.org/abs/2504.05741

核心创新点：

1. 解耦架构设计

采用双模块分工机制：条件编码器（Condition Encoder）通过自监督对齐预训练视觉特征（REPAlign），专注提取低频语义信息；速度解码器（Velocity Decoder）基于编码器生成的自条件特征（self-condition），高效解码高频细节。该设计突破了传统扩散Transformer单模块处理全频段信息的局限性，在ImageNet 256×256和512×512数据集上分别实现1.31 FID（256 epochs）和 1.28 FID（500K steps）的SOTA性能，训练效率提升4倍。

2. 推理加速策略

利用编码器特征的时序一致性，提出统计动态规划算法优化自条件特征共享策略。通过构建相似性矩阵并求解最小路径和问题，在保证生成质量的前提下，实现相邻去噪步骤间编码器计算的动态复用（如87%共享率下FID仅上升0.09），显著降低推理复杂度。

3. 架构扩展性突破

发现编码器容量与模型性能的强相关性，提出非对称层分配原则（如DDT-XL/2采用22层编码器+6层解码器），验证了大规模模型下"强编码-轻解码"架构的优越性。结合改进的RoPE位置编码与RMSNorm等技术，进一步优化高频重建能力。

Pedestrian-Aware Motion Planning

论文标题：Pedestrian-Aware Motion Planning for Autonomous Driving in Complex Urban Scenarios
论文链接：https://arxiv.org/abs/2504.01409
代码：https://github.com/TUM-AVS/PedestrianAwareMotionPlanning

核心创新点：

1. 社会力模型驱动的行人仿真框架

提出基于改进社会力模型（Social Force Model）的行人行为仿真模块，集成于CommonRoad环境，首次实现对城市结构化场景（人行道/斑马线）的细粒度建模。通过离线值迭代生成行人路径策略，动态响应车辆交互（如避让高速车辆），解决了传统仿真中行人行为僵化及局部极小值问题。

2. 风险-伤害联合评估的运动规划算法

开发风险感知运动规划器，创新性地融合碰撞概率（Collision Probability）与伤害值（Harm Metric）构建风险评估框架。采用逻辑回归模型量化MAIS3+级伤害概率，并基于Maximin原则筛选轨迹，突破传统仅依赖碰撞概率的局限，有效缓解"机器人冻结"问题。

3. 车辆-行人耦合预测机制

行人运动预测采用常速模型结合车辆预测的BND（Bivariate Normal Distribution）不确定性建模，车辆端集成Wale-Net预测动态障碍物轨迹。通过蒙特卡洛采样与解析法混合计算碰撞概率，提升复杂交互场景的决策鲁棒性。

4. 开源验证体系构建

首次公开行人-车辆耦合仿真代码库（基于CommonRoad扩展），包含可复现的行人策略生成器与风险评估模块，为自动驾驶在密集人群场景的研究提供标准化测试基准。

强化学习运动规划综述

论文标题：A Survey of Reinforcement Learning-Based Motion Planning for Autonomous Driving: Lessons Learned from a Driving Task Perspective
论文链接：https://arxiv.org/abs/2503.23650