自动驾驶前沿论文速递 | 扩散模型、Gaussian、VLM等~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

Diffusion-Based Generative Models

  • 论文标题:Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2505.23115

核心创新点:

1. 将3D占用预测重构为生成建模任务

  • 首次提出通过扩散模型 (Diffusion Models)对3D占用网格进行生成建模,突破传统判别方法(如端到端映射图像到占用网格)的局限性。

  • 核心贡献 :

    • 通过建模3D场景先验 (3D Scene Prior)和联合语义关系,提升预测的物理一致性与细节完整性(如遮挡区域补全)。

    • 利用扩散模型的多模态分布建模能力 (Multi-Modal Occupancy Distributions),生成符合视觉观测的多样化合理样本,支持下游规划任务的多场景推演。

2. 基于离散扩散过程的条件采样框架

  • 提出针对离散分类变量 (Discrete Categorical Variables)的扩散建模方法,结合鸟瞰图 (BEV)特征作为条件输入,优化生成过程。

  • 关键技术 :

    • 离散扩散过程 :采用均匀转移矩阵(Uniform Transition Matrix)对占用网格进行噪声扰动,通过可学习嵌入层将离散标签映射到连续特征空间。

    • 无分类器引导 (Classifier-Free Guidance, CFG):通过调整条件(ℓ_c)与无条件(ℓ_u)模型的logits加权(ℓ = (s+1)ℓ_c − sℓ_u),增强视觉条件对生成过程的控制力。

    • 端到端训练 :以BEV模型的最终分类器前表示(C-R)为条件,联合优化视觉编码器与扩散模型参数。

3. 噪声鲁棒性与动态推理机制

  • 噪声鲁棒性 :扩散模型的去噪能力天然适配占用标注中的传感器噪声与局部观测问题,显著优于判别方法。

  • 动态推理 (Dynamic Inference Steps):通过控制采样步数(如10-15步),在推理效率与预测质量间灵活平衡(见表IX性能对比)。

4. 对下游规划任务的赋能验证

  • 首次将占用预测的评估视角扩展至规划任务效能 (Planning Task Effectiveness),证明生成模型输出的占用场景更符合实际决策需求。

  • 实验验证 :

    • 在UniAD框架中替换BEV特征为生成的占用网格,显著降低碰撞率(Collision Rate)与轨迹L2误差(表VIII)。

    • 无需可见掩码(Visible Mask)训练时,生成模型性能超越基于真实标注的判别方法,体现其对非可见区域的合理推断能力。

大额新人优惠!欢迎扫码加入~

RadarSplat

  • 论文标题:RadarSplat: Radar Gaussian Splatting for High-Fidelity Data Synthesis and 3D Reconstruction of Autonomous Driving Scenes

  • 论文链接:https://arxiv.org/abs/2506.01379

  • 代码:https://umautobots.github.io/radarsplat

核心创新点:

1. 首例雷达驱动的3D高斯溅射框架

  • 首次将3D Gaussian Splatting (GS) 引入自动驾驶雷达场景,构建显式高斯场景表示(公式9)。通过雷达物理约束的渲染方程(公式11)建模雷达波特性,解决传统NeRF方法(如Radar Fields)在噪声场景下的失效问题。

2. 雷达噪声建模与解耦

  • 噪声检测:提出基于快速傅里叶变换(FFT)的噪声分类算法(公式2-3),精准识别多径效应(Multipath Effects)、接收机饱和(Receiver Saturation) 和散斑噪声(Speckle Noise)(图3)。

  • 概率解耦:在功率反射率中引入噪声概率项(公式10),解耦目标占据概率与噪声,支持雷达逆渲染(Radar Inverse Rendering) 分离真实目标/噪声/多径(图9)。

3. 高保真雷达渲染管线

  • 双增益投影:

    • 俯仰投影(Elevation Projection):结合雷达俯仰天线增益累积高斯权重(公式11)。

    • 方位投影(Azimuth Projection):通过方位天线增益的1D卷积实现波束成形(图20)。

4. 去噪与占据图监督

  • 鲁棒去噪算法:基于噪声检测结果生成无噪掩膜,通过高斯平滑与衰减区域搜索构建初始占据图(Occupancy Map)(图5-6,算法3.3)。

  • 占据图监督损失:以去噪后的占据图作为监督信号,通过损失项提升几何重建精度(公式12)。

DriveMind

  • 论文标题:DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2506.00819

核心创新点:

1. 动态双VLM架构与对比语义奖励

  • 创新点 :提出动态双VLM架构,结合静态对比VLM编码器 与新颖性触发的VLM编码器-解码器 ,解决传统固定提示的语义僵化问题。

    • 静态VLM :采用冻结的CLIP模型(ViT-bigG-14)对鸟瞰图(BEV)帧进行嵌入,通过固定“当前状态”(present)与“理想状态”(ideal)文本提示,生成对比语义奖励(Contrastive Semantic Reward)

    • 动态VLM :基于SmolVLM-256M构建编码器-解码器,通过链式思维蒸馏 (Chain-of-Thought Distillation)微调,仅在语义嵌入漂移超过阈值时触发,生成自适应的“当前/理想”提示(如风险评估与路径规划),避免奖励黑客(Reward Hacking)。

2. 自调整语义奖励框架

  • 创新点 :融合多模态奖励机制,实现可解释、安全的决策:

    • 自适应理想状态对比奖励 (AICR):

动态调整正负提示权重(α+β=1),平衡安全探索与危险规避。

  • 层次化车辆状态融合奖励 (HVFR):

通过乘性融合归一化运动学指标(速度、车道居中、航向对齐、横向稳定性),强制执行硬性安全约束(任一指标违规即惩罚)。

  • 预测对比远见奖励 (PCFM):

基于紧凑世界模型(Compact World Model)预测下一语义嵌入,引导长期信用分配与前瞻性规划。

3. 零样本跨域泛化能力

  • 创新点 :在真实行车记录数据(BDD100K)上验证语义奖励的零样本迁移性:

    • 自适应理想状态对比奖励(AICR)分布偏移极小(Wasserstein距离=0.028,K-S统计量=0.105),表明模型在未见过的真实场景中仍能保持鲁棒的语义对齐。

    • 无需微调即可适应真实世界的光照、天气变化及罕见事件(如道路损坏)。

GaussianFusion

  • 论文标题:GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2506.00034

  • 代码:https://github.com/Say2L/GaussianFusion

核心创新点:

1. 基于2D高斯表示的多传感器融合框架

  • 首次将2D高斯分布 (Gaussian Splatting)引入端到端自动驾驶的多传感器融合 (Multi-Sensor Fusion),通过物理属性(均值、尺度、旋转)和隐/显式特征建模交通场景。相比传统3D高斯表示,仅需BEV语义图监督,无需密集3D标注,显著提升计算效率。

2. 双分支特征融合架构

  • 显式分支 (Explicit Branch):通过几何对齐的跨模态注意力(Cross-Attention)聚合多传感器局部特征,用于更新高斯的物理属性(如位置、语义),实现交通场景的显式重建 (Scene Reconstruction)。

  • 隐式分支 (Implicit Branch):通过全局跨模态交互提取互补特征,直接服务于轨迹规划,解耦感知与规划任务的耦合性。

3. 级联规划头(Cascade Planning Head)

  • 提出分层高斯查询机制 ,通过迭代优化锚定轨迹(Anchor Trajectories):

    • 利用显式特征构建场景拓扑,隐式特征捕捉全局规划线索;

    • 通过交叉注意力(Cross-Attention)动态聚合高斯特征,生成鲁棒轨迹。

  • 该设计显著提升复杂场景(如无保护左转、密集交通)的轨迹预测精度。

4. 稀疏高斯表示的效率与可解释性优势

  • 相比传统BEV融合的密集栅格化表示,高斯的空间稀疏性 (Sparsity)减少冗余计算,缓解内存瓶颈;

  • 物理属性(如语义、位置)提供直观的场景解释,增强模型透明度,避免黑箱式注意力机制的模糊性。

5. 端到端验证与性能突破

  • 在NAVSIM和Bench2Drive基准测试中,GaussianFusion以ResNet-34为骨干网络,分别取得85.0 EPDMS和79.4 DS的SOTA性能,验证了其在开放环路(Open-Loop)与闭合环路(Closed-Loop)场景下的鲁棒性与泛化能力。

智能驾驶进入新一轮的下沉期,行业前沿聚焦在大模型、VLA、端到端等方向。为此我们打造了一个专业的技术社区,follow学术界和工业界的最前沿!欢迎加入『自动驾驶之心知识星球』......

大额新人优惠!欢迎扫码加入~

### 扩散模型自动驾驶数据去噪中的应用 扩散模型(Diffusion Model)是一种基于概率分布建模的技术,在图像生成和修复领域表现出色。对于自动驾驶数据的去噪问题,可以通过以下方式实现: #### 数据预处理与特征提取 在自动驾驶场景中,传感器采集的数据通常包含噪声。这些噪声可能来自环境干扰、硬件缺陷或其他外部因素。为了有效去除噪声并保留有用信息,可以先对原始数据进行预处理[^1]。例如,通过注意力机制可视化因果关系来增强重要特征的权重。 #### 扩散过程设计 扩散模型的核心在于定义一个逐步增加随机性的前向扩散过程以及学习逆向恢复干净样本的过程。具体到自动驾驶数据上: - **正向扩散阶段**:逐渐向输入加入高斯白噪音直到其接近纯噪声状态。 - **反向生成阶段**:训练神经网络估计每一步所需的条件均值以便重建无噪版本的数据点序列[^2]。 #### 实现细节 以下是使用Python编写的一个简单框架用于展示如何构建基本版的扩散模型来进行数据清理工作: ```python import torch from torch import nn class DiffusionModel(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(DiffusionModel, self).__init__() self.network = nn.Sequential( nn.Linear(input_dim + 1, hidden_dim), # Add timestep embedding nn.ReLU(), nn.Linear(hidden_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, output_dim) ) def forward(self, x_t, timesteps): """ Predict noise given noisy image at time step `t`. Args: x_t (Tensor): Noisy images. timesteps (Tensor): Time steps corresponding to each batch element. Returns: Tensor: Estimated added Gaussian noise εθ(x(t), t). """ combined_input = torch.cat([x_t, timesteps.unsqueeze(-1)], dim=-1) return self.network(combined_input) def sample(model, shape, beta_schedule='linear'): """Sample new clean samples from the diffusion process.""" device = next(model.parameters()).device b = shape[0] img = torch.randn(*shape).to(device) # Start with pure random normal distribution num_steps = len(beta_schedule) for i in reversed(range(num_steps)): t = torch.full((b,), i, dtype=torch.long, device=device) predicted_noise = model(img, t.float()) alpha_t = ... # Compute based on schedule definition sqrt_one_minus_alpha_cumprod_t = ... z = torch.randn_like(img) if i > 1 else 0 img = ( 1 / torch.sqrt(alpha_t)) * (img - ((1-alpha_t)/torch.sqrt(1-alpha_cumprod_t))*predicted_noise)+\ torch.sqrt(betas[i]) *z return img.cpu().numpy() ``` 此代码片段仅作为概念验证用途,并未完全优化适用于实际生产环境中复杂情况下的部署需求[^3]。 #### 验证方法论 针对所提出的解决方案的有效性和鲁棒性评估方面,则可采用布尔满足度测试技术配合二值化神经网络结构完成自动化校验流程[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值