- 博客(621)
- 资源 (46)
- 收藏
- 关注
原创 π₀(2): 代码详解
本文介绍了π₀视觉-语言-动作流模型(VLA Flow Model)及其代码实现。该模型通过复用PaliGemma预训练骨干网络,结合流匹配框架和双流Transformer架构,实现了通用机器人控制。代码支持LeRobot和RLDS两种数据格式,提供完整的数据处理流水线,包括动作分块、归一化和多相机图像处理。模型采用PyTorch和JAX双框架实现,支持分布式训练。核心创新在于将动作生成视为向量场预测问题,通过ODE求解器从噪声中迭代生成精确动作。
2026-05-18 18:12:30
76
原创 ReCogDrive(3):hidden state cache说明
ReCogDrive缓存机制解析 本文详细分析了ReCogDrive项目中VLM推理结果的缓存实现方案。核心思路是将昂贵的VLM(InternVL3)前向计算结果持久化到磁盘,在后续训练中直接读取缓存,避免重复计算。 缓存必要性 VLM模型在训练后期阶段权重冻结,但需重复处理相同图像 无缓存时:200次epoch需200次VLM前向计算(400-500ms/次) 有缓存时:磁盘读取仅需1-5ms/样本 实现方案 两种缓存模式: 缓存hidden state(VLM计算结果) 仅缓存图像路径(不含VLM计算)
2026-05-18 14:51:03
86
原创 π₀ (1):用于通用机器人控制的视觉-语言-动作流模型
本文提出π₀模型,一种基于预训练视觉-语言模型(VLM)的新型通用机器人控制框架。该模型通过流匹配技术生成高频动作(最高50Hz),支持复杂灵巧任务如衣物折叠和桌面清理。π₀在10,000小时多样化机器人数据上预训练,涵盖7种机器人构型和68项任务,并可通过微调适配新任务。实验表明,该模型能执行长时程任务(达数十分钟),支持语言指令交互,并展现跨本体泛化能力。相比传统自回归VLA模型,π₀在灵巧控制方面具有显著优势,为机器人基础模型的发展提供了新思路。
2026-05-18 14:10:04
66
原创 ReCogDrive(2): 代码深度解析
本文提出ReCogDrive框架,一种结合视觉语言模型(VLM)与扩散模型的端到端自动驾驶系统。核心创新点包括:1) 采用InternVL3/Qwen2.5-VL作为VLM主干网络进行场景理解;2) 设计认知引导的扩散规划器(DiT)生成连续轨迹;3) 提出三阶段训练流程(VLM预训练、模仿学习、DiffGRPO强化学习)。系统通过分离认知与动作生成,解决了传统方法中语言-动作不匹配问题,在8×3维轨迹生成任务上实现584ms→72ms的推理加速。代码已开源,包含完整的训练pipeline和强化学习实现。
2026-05-18 10:28:42
198
原创 BridgeDrive 代码详解
BridgeDrive论文摘要(150字) 本文提出BridgeDrive,一种基于扩散桥(Diffusion Bridge)的自动驾驶闭环轨迹规划方法。针对现有扩散模型在轨迹规划中理论不对称的问题,BridgeDrive构建了从锚轨迹(anchor)到目标轨迹的理论自洽扩散桥过程。其核心创新在于将前向过程定义为从真实轨迹到锚轨迹的扩散,反向过程则从锚轨迹出发逐步去噪生成精细轨迹,形成双向对称的扩散桥。模型采用多任务Transformer架构,通过扩散桥头(DDBM)实现轨迹优化,在NAVSIM数据集上验证
2026-05-15 16:30:29
327
原创 BridgeDrive:用于自动驾驶闭环轨迹规划的扩散桥策略
理论修正:用扩散桥解决锚点引导扩散的不对称硬伤;架构简洁:感知 - 分类 - 去噪三模块,端到端、易训练、易部署;闭环可靠:在最严苛的 Bench2Drive 上全面 SOTA,安全优先;实车可行:推理速度达标,跨数据集泛化强,具备量产潜力。它证明:diffusion 模型不是 “黑箱生成器”,只要遵守理论、结合驾驶先验、适配闭环特性,完全可以成为自动驾驶规划的安全基石。
2026-05-15 15:40:22
201
原创 leetcode (4): 连通域/岛屿问题
本文介绍了三个经典的岛屿问题解法,均基于深度优先搜索(DFS)实现: 岛屿数量问题:通过遍历网格,遇到陆地时进行DFS淹没连通区域并计数,最终统计独立岛屿数量。 飞地数量问题:采用反向思维,先淹没边界连通区域,再统计剩余陆地数量即为飞地数量。 最大岛屿面积问题:在DFS过程中计算每个岛屿的面积,并维护最大值。 三个问题的核心都是利用DFS算法处理二维网格中的连通区域,通过递归访问相邻单元格来标记或统计目标区域。解题框架相似,主要区别在于统计目标不同(岛屿数量、飞地数量或最大面积)。
2026-04-17 17:34:03
426
原创 Senna-2(1): 论文解读
视觉语言模型(VLM)凭借高层语义推理能力,能够增强端到端(E2E)自动驾驶策略的规划性能。然而,现有方法往往忽视了VLM 高层决策与端到端底层规划之间的双系统一致性问题,导致生成的,进而削弱系统的自上而下引导能力与决策执行能力。为解决这一问题,本文提出Senna‑2—— 一种面向一致决策与规划、显式对齐双系统的先进 VLM‑E2E 驾驶策略。该方法采用面向一致性的:1)驾驶预训练,完成初步决策与规划;2)开环对齐,优化 VLM 与 E2E 策略的一致性;3),在 3DGS 环境中强化驾驶安全性与效率。
2026-04-11 19:51:52
145
原创 ResAD、DiffusionDrive、DiffusionDriveV2三篇论文总结
自动驾驶端到端规划领域的三篇突破性论文(ResAD、DiffusionDrive、DiffusionDriveV2)分别解决了三个关键痛点:DiffusionDrive通过锚点先验将扩散规划速度提升至仅需2步去噪;ResAD创新性地采用残差学习方法,优化轨迹预测的稳定性;DiffusionDriveV2引入强化学习机制提升多模态候选集整体质量。这三项研究并非简单迭代,而是从不同维度(实时性、学习效率和候选质量)共同推进了自动驾驶规划技术的发展,为后续研究指明了互补融合的创新方向。
2026-04-11 19:50:51
154
原创 SparseDriveV2: 论文解读
端到端自动驾驶近年来快速发展,从UniAD到VADv2等方法的演进,展示了显式建模多模态规划的进步。主流趋势已转向生成式方法,如DiffusionDriveV2等,通过动态生成候选轨迹来处理驾驶行为的多模态特性。然而,SparseDriveV2提出了一种反思路:重新审视静态轨迹词表的潜力。研究发现,传统打分方法的瓶颈在于词表覆盖不足,而非范式本身的问题。通过解耦轨迹为几何路径和速度曲线,构建超稠密词表,并结合高效打分策略,SparseDriveV2在多个基准上达到SOTA性能。这项工作表明,在足够密集的词表
2026-04-07 22:47:19
179
原创 ResAD: 端到端归一化残差轨迹模型
本文提出ResAD框架,一种基于归一化残差轨迹建模的端到端自动驾驶方法。核心创新在于:1)通过惯性参考轨迹(匀速模型)作为基础,学习残差修正量,解耦固有运动模式与环境感知决策;2)设计逐点残差归一化模块(PRNorm),平衡时空异质性带来的优化偏差。实验表明ResAD在NAVSIM基准上表现优异。该方法通过残差学习简化复杂轨迹预测任务,使模型更稳定、泛化性更强。
2026-04-05 17:35:19
99
原创 diffusion 和 flow match详解
Diffusion模型通过模拟噪声逐步加入和去除的双向过程学习数据分布。其核心包括:前向过程逐步加噪,将数据转化为高斯噪声;反向过程训练神经网络预测噪声或原始数据,实现从噪声中生成高质量数据。前向加噪过程无需训练,通过公式计算实现。在轨迹生成中,Diffusion模型不直接预测轨迹,而是学习如何从噪声逐步还原真实轨迹分布,适合建模复杂的高维多模态分布。代码实现展示了如何基于时间步给数据添加可控噪声,以及基于锚点轨迹的加噪优化方法。
2026-04-05 15:21:35
109
原创 Hyper-Diffusion-Planner(1): 论文解读
摘要 清华AIR与小米汽车联合团队提出Hyper Diffusion Planner (HDP),首次实现纯扩散模型在自动驾驶端到端规划中的实车闭环应用。针对扩散模型在规划任务中的三大挑战(任务特性不匹配、闭环误差放大、数据规模限制),HDP通过损失空间重构(τ₀预测+τ₀损失最优配置)、混合损失设计(融合航点与速度表示)、大规模数据缩放及轻量化RL后训练,在Xiaomi SU7上完成200km实车测试,性能较基线提升10倍。实验表明,HDP的混合损失(Hybrid Loss)显著提升轨迹几何与动力学一致性
2026-03-19 16:49:10
632
原创 双向注意力(Bidirectional Attention)详解
双向注意力机制是一种同时建模两个序列间双向信息流动的注意力方法,广泛应用于机器翻译、问答系统等任务。其核心原理是同时计算两个方向的注意力:序列A→序列B和序列B→序列A,通过softmax归一化和点积运算实现信息交互。主要类型包括:对称双向注意力(使用相同参数)、非对称双向注意力(独立参数)和交叉双向注意力(交替使用方向)。相比单向注意力,它能更全面地捕捉序列间的复杂关系。实现上可通过PyTorch的MultiheadAttention模块构建,支持堆叠多层形成Transformer风格的编码器。该机制在多
2026-03-13 18:06:57
446
原创 AdaLN 原理及代码详解
AdaLN(自适应层归一化)是标准LayerNorm的条件化扩展,其核心创新在于将归一化层的缩放和平移参数改为由外部条件(如时间步、文本嵌入)动态生成。这一设计使模型能够根据输入条件自适应调整特征分布,特别适用于扩散模型、文本到图像生成等条件生成任务。AdaLN-Zero通过将偏置初始化为零确保初始状态为恒等映射,显著提升了训练稳定性。该方法已广泛应用于DiT、SD3、Sora等现代生成式AI模型,成为扩散Transformer的核心技术组件。与FiLM、AdaIN等方法相比,AdaLN保留了LayerNo
2026-03-03 20:35:18
277
原创 强化学习(1): ppo 原理及代码详解
PPO(Proximal Policy Optimization)是一种强化学习算法,通过引入裁剪机制限制策略更新幅度,平衡性能与稳定性。其核心包含4个模型(Actor、Critic、Reward、Reference)和2个损失(策略损失、价值损失)。Actor负责决策,Critic评估动作价值,Reward提供即时反馈,Reference防止策略偏离。PPO通过计算优势函数(Advantage)衡量动作优劣,并利用GAE平滑和归一化处理优化训练过程。相比传统方法,PPO能更稳定高效地学习复杂任务,广泛应用
2026-02-05 23:42:57
755
原创 clearml 工具的使用详解
ClearML是一个开源的MLOps平台,用于自动化和管理机器学习实验的全生命周期。它自动记录训练过程中的所有参数、代码、数据集和模型,提供实时可视化界面,支持团队协作、超参数优化和模型部署。推荐使用ClearML因为它:1)完全开源且可本地部署,保障数据隐私;2)集成简单(仅需两行代码);3)提供从研究到生产的无缝工作流;4)显著提升实验复现性和团队协作效率;5)免费版功能完整,无需昂贵订阅。ClearML让数据科学家专注于模型创新而非手动记录实验,大幅加速AI开发迭代周期。
2026-01-22 22:40:28
932
原创 DiffusionDriveV2 (1) : 端到端自动驾驶中受强化学习约束的截断扩散建模
DiffusionDriveV2:强化学习约束的截断扩散模型在端到端自动驾驶中的应用 本文针对端到端自动驾驶中扩散模型面临的模式崩溃问题,提出DiffusionDriveV2框架。该方法通过引入强化学习约束,解决了DiffusionDrive依赖模仿学习导致的多样性与持续高质量之间的困境。主要创新包括: 采用尺度自适应乘法噪声促进广泛探索 提出锚点内GRPO管理单个锚点样本间的优势估计 设计锚点间截断GRPO整合全局视角,避免不同驾驶意图间的不当比较 实验表明,该方法在NAVSIM基准测试中达到最先进水平(
2026-01-17 23:03:38
312
原创 python 学习: dataclasses_json的使用
摘要:dataclasses_json是Python中简化数据类与JSON转换的库,支持序列化/反序列化操作。通过@dataclass_json装饰器可快速实现数据类与JSON/字典的相互转换,支持嵌套数据类、可选字段和默认值处理。主要方法包括to_json()、from_json()、to_dict()和from_dict(),适用于API开发、配置文件处理等场景,能显著减少数据转换的代码量。安装简单,只需执行"pip install dataclasses-json"命令即可使用。
2025-12-16 15:01:25
433
原创 分析CUDA内存泄漏、分布
PyTorch 的 torch.cuda.memory._record_memory_history(True) 是一个用于调试 CUDA 内存问题的工具,可以记录内存分配/释放的历史轨迹。开启后,它会记录操作时间、内存地址、大小和调用栈等信息,帮助定位内存泄漏、异常分配和内存碎片等问题。使用时需注意性能开销,仅建议在调试阶段使用。通过 _snapshot() 生成内存快照后,可用 _parse_snapshot() 分析未释放的内存块及其调用栈。该工具适用于复杂内存问题排查,简单问题可使用 memory_
2025-12-16 14:59:52
110
原创 LayerNorm 的原理
层归一化(LayerNorm)是神经网络中一种重要的归一化技术,主要用于稳定训练和加速收敛。与批归一化(BatchNorm)不同,LayerNorm对单个样本的所有特征进行归一化,而非跨样本归一化。其核心原理是通过标准化隐藏层的输入分布,解决深度学习中常见的内部协变量偏移问题。LayerNorm尤其适用于NLP任务,因其不依赖batch大小,能处理变长输入。在Transformer架构中,LayerNorm被广泛用于各子层后,配合残差连接使用。PyTorch实现时需指定归一化维度,且训练和推理行为一致,无需
2025-12-16 14:58:55
602
原创 diffusiondrivev2 模型(1):原理讲解
Diffusion 模型(扩散模型)是一种基于概率生成模型的深度学习架构,核心思想源于统计物理学中的 “扩散过程”—— 通过模拟“噪声逐渐加入”和“噪声逐步去除”的双向过程,学习数据的真实分布,最终实现从随机噪声中生成高质量数据(如图像、文本、音频等)。
2025-12-16 14:57:51
337
原创 Diffusion Planner(1): 论文解读
本文提出了一种基于Transformer架构的扩散规划模型(Diffusion Planner),用于解决自动驾驶中复杂开放环境下的闭环规划问题。该模型创新性地利用扩散模型对多模态驾驶行为进行建模,并通过分类器引导机制实现安全且自适应的规划行为。与现有方法相比,该模型无需依赖基于规则的修正即可生成高质量轨迹,同时支持预测与规划任务的联合建模。在nuPlan基准测试和200小时配送车辆数据集上的实验表明,该模型在闭环性能和迁移能力方面均优于现有基准方法。项目代码和数据已开源。
2025-10-26 18:16:35
328
原创 DiffusionDrive(1): 论文解读
本文提出DiffusionDrive,一种创新的端到端自动驾驶扩散模型。针对传统扩散策略在交通场景中的模态崩溃和计算效率问题,我们提出截断扩散策略:通过引入先验多模态锚点构建锚定高斯分布,将去噪步骤从20步大幅缩减至2步。同时设计高效的级联扩散解码器增强场景交互能力。实验表明,在NAVSIM数据集上,DiffusionDrive以ResNet-34骨干网络取得88.1 PDMS的新记录,推理速度达45 FPS;在nuScenes数据集上相比VAD提升1.8倍速度并降低20.8%轨迹误差。该工作首次将扩散模型
2025-10-13 14:50:30
388
原创 MapDistill:通过相机 - 激光雷达融合模型蒸馏提升高效基于相机的高清地图构建性能
摘要 本文提出MapDistill,一种基于知识蒸馏的高效相机高清地图构建方法。针对纯相机方法缺乏深度信息导致性能受限的问题,作者创新性地将相机-LiDAR融合模型作为教师模型,轻量级相机模型作为学生模型,通过双BEV转换模块实现跨模态知识迁移。方法包含三部分蒸馏策略:跨模态关系蒸馏促进特征对齐,双层次特征蒸馏实现语义知识迁移,以及专门设计的地图头蒸馏优化最终预测。在nuScenes数据集上的实验表明,MapDistill相比现有方法可实现7.7 mAP提升或4.5倍推理加速,为高效高清地图构建提供了新思路
2025-09-29 17:41:26
426
原创 ReCogDrive(1): 论文解读
本文提出ReCogDrive系统,通过融合视觉-语言模型(VLM)与扩散规划器,有效解决端到端自动驾驶在长尾场景中的性能下降问题。系统采用三阶段训练:首先利用310万驾驶问答数据适配VLM,再通过扩散模型将语言表征映射为连续轨迹,最后用强化学习优化轨迹安全性。在NAVSIM基准测试中取得89.6的PDMS最高分,较现有方法提升5.6分,显著提升了罕见场景下的驾驶性能。
2025-09-29 15:01:45
230
原创 qwen2.5vl(2):lora 微调训练及代码讲解
本文介绍了使用Qwen2.5VL-7B-Instruct模型在COCO2014图像描述数据集上进行LoRA微调训练的过程。主要内容包括:1)环境配置,安装transformers、peft等框架及SwanLab训练监控工具;2)数据集准备,从ModelScope下载1000张COCO图像并处理为CSV格式;3)数据格式转换,将图像和描述转换为模型训练所需的JSON格式;4)使用SwanLab进行训练可视化,监测loss、梯度等指标变化。该项目实现了多模态图像描述任务的微调训练,代码和模型已开源。
2025-08-23 15:06:32
681
原创 多模态大语言VLM模型综述
摘要: 多模态大语言模型(MLLM)通过融合视觉编码器与大语言模型(LLM),展现出跨模态理解和推理的涌现能力。本文系统梳理了MLLM的核心架构(编码器-适配器-LLM)、训练策略与评估体系,并探讨了细粒度模态扩展、多语言支持及幻觉缓解等关键技术。研究显示,提升输入分辨率和LLM规模可显著增强性能,而多模态上下文学习(M-ICL)、思维链(M-CoT)等技术进一步优化了复杂任务表现。当前挑战包括模态对齐精度和计算效率,未来方向可能聚焦于多模态智能体开发与低资源场景适配。相关资源持续更新于GitHub项目。
2025-08-23 14:52:45
501
原创 qwen2.5vl(1): 环境安装及运行
本文介绍了Qwen2.5-VL-7B-Instruct多模态大模型的安装部署流程。主要内容包括:1)环境配置,详细列出CUDA 12.1、Python 3.12等依赖项安装命令;2)模型权重下载方法,通过modelscope库获取;3)代码运行示例,提供图像描述任务的测试脚本;4)Web界面部署指南,展示交互式演示效果;5)针对"GET engine"错误的解决方案,建议卸载冲突的cuDNN库。文章还包含关键步骤的截图说明,帮助用户快速搭建和运行该视觉语言大模型。
2025-08-19 21:37:36
314
原创 Qwen2.5VL技术报告解读
Qwen2.5-VL是Qwen团队推出的最新视觉语言模型,在基础能力和创新功能上实现重大突破。该模型具备增强的视觉识别、精准物体定位、强大文档解析和长视频理解能力,支持边界框定位和结构化数据提取。创新性地采用动态分辨率处理技术和绝对时间编码机制,可处理不同尺寸图像和长达数小时的视频内容。Qwen2.5-VL提供三种规格版本,旗舰级72B模型在文档和图表理解方面达到与GPT-4o、Claude 3.5相当的水平,同时保持出色的语言理解能力。技术亮点包括窗口注意力机制优化计算效率、动态FPS采样、改进的时序MR
2025-08-19 21:35:50
481
原创 yolo world (1): 论文解读
摘要 本文提出了一种创新的开放词汇目标检测方法YOLO-World,通过结合视觉-语言建模和大规模数据集预训练,显著提升了YOLO系列检测器的泛化能力。针对传统目标检测器局限于预定义类别的问题,YOLO-World引入可重参数化视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,有效整合视觉与语言信息。该方法在LVIS数据集上实现了35.4 AP的零样本检测性能,同时保持52 FPS的实时推理速度。实验表明,YOLO-World在准确性和效率方面均优于现有方法,并展现出强大的下游任务适应能力,
2025-08-09 21:25:38
267
原创 occworld(1):论文解读
本文提出了一种3D Occupancy空间中的世界模型OccWorld,用于自动驾驶场景的演化预测和轨迹规划。不同于传统基于3D包围框的方法,OccWorld利用3D语义occupancy作为场景表示,能更细粒度地描述场景结构且成本更低。该方法通过基于重建的scene tokenizer将3D occupancy离散化为token,并采用类似GPT的时空transformer自回归预测未来occupancy和自车轨迹。在nuScenes数据集上的实验表明,OccWorld在4D占用预测任务中达到26.63
2025-08-09 21:24:29
401
原创 pip 查找包的所有版本
该文介绍了智能农业中物联网技术的应用现状与发展趋势。文章指出,物联网通过传感器网络、云计算等技术,实现了农业生产环境的智能监测与控制。重点分析了物联网在精准灌溉、病虫害预警、产量预测等领域的应用案例,并探讨了5G、AI等新技术与物联网融合带来的新机遇。最后,文章总结了当前面临的设备成本、数据安全等挑战,并对未来智慧农业的发展方向进行了展望。
2025-08-09 21:23:29
283
原创 小米MiMo-VL技术报告解读
小米开源多模态大模型MiMo-VL实现性能突破 小米最新开源的MiMo-VL多模态大模型在40项评测任务中,有35项超越Qwen-VL-7B,并在OlympiadBench上以59.4分超越78B参数模型。该模型采用四阶段预训练(2.4万亿token)结合混合强化学习(MORL)的创新方法,包含ViT视觉编码器、MLP投影器和MiMo-7B语言模型三大组件。研究揭示了长思维链推理数据对预训练的关键作用,以及混合强化学习在多能力同步优化中的挑战。模型特别在GUI定位(OSWorld-G 56.1分)和多模态推
2025-08-09 17:26:10
971
原创 ORION(1): 论文解读
小米汽车与华中科技大学联合提出ORION框架,通过视觉语言模型(VLM)指导端到端自动驾驶,解决了现有方法在闭环评估中因果推理不足的问题。该框架创新性地融合QT-Transformer(聚合长期历史信息)、大语言模型(场景推理)和生成式规划器(轨迹预测),实现了语义推理与动作空间的精准对齐。在Bench2Drive数据集测试中,ORION以77.74驾驶评分和54.62%成功率显著超越现有最优方法,分别提升14.28分和19.61个百分点,展现出卓越的闭环驾驶性能。
2025-08-09 14:09:22
587
原创 基于SD地图增强无图车道线和拓扑推理
本文提出了一种标准定义(SD)地图增强的自动驾驶场景感知和拓扑推理框架SEPT,旨在解决无地图驾驶系统在长距离和遮挡场景下的感知局限。通过创新性地融合SD地图与鸟瞰图(BEV)特征,提出混合特征融合策略结合栅格化和矢量化表示,并设计双重特征对齐机制解决空间错位问题。此外,引入基于SD地图的交叉路口感知关键点检测(IKPD)辅助任务,显著提升场景理解能力。在OpenLane-V2数据集上的实验表明,该方法在场景感知和拓扑推理任务中均取得显著性能提升,优于现有方法。
2025-08-05 21:30:30
472
原创 首个自动驾驶VLA综述介绍
近日,来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队联合发布了全球首篇针对自动驾驶领域的视觉-语言-行动(Vision-Language-Action, VLA)模型的全面综述。这篇题为《A Survey on Vision-Language-Action Models for Autonomous Driving》的论文,系统性地梳理了VLA在自动驾驶(VLA4AD)领域的前沿进展,深入剖析了其架构演进、核心技术与未来挑战。论文GitHub仓库已同步上线,收录了超过20个代表性模型和相关数据
2025-07-12 10:22:02
436
原创 OmegaConf 使用详解与案例说明
OmegaConf 是一个 Python 配置管理库,支持层级配置、多源合并和变量插值。摘要如下: 核心功能 支持 YAML/JSON/字典等多种配置格式 提供配置合并、变量插值、运行时修改功能 包含类型安全检查和转换 基本操作 从字典/YAML创建配置对象 通过点语法访问嵌套配置项 使用merge()合并多个配置源 支持环境变量插值 类型转换 通过to_container()将OmegaConf对象转为Python原生字典 resolve参数控制是否解析变量插值 典型应用:管理项目配置,支持开发/生产环境
2025-07-08 14:58:26
576
原创 一文盘点完全端到端的主流方法
本文综述了端到端自动驾驶技术的最新进展,重点分析了UniAD、VAD、UAD等多篇前沿论文的核心算法。这些方法通过神经网络直接处理传感器数据输出控制指令,避免了传统模块化系统的信息损失和误差累积。文章详细解读了各算法的创新设计:UniAD首次整合感知-预测-规划全流程;VAD采用高效的矢量化表示;UAD引入自回归预测机制;Hydra-MDP通过多模态多头蒸馏赢得CVPR竞赛。研究显示,端到端方法在计算效率、OOD问题处理和长尾场景适应性方面具有显著优势,为自动驾驶系统提供了更统一的解决方案。
2025-06-15 17:37:00
191
基于yolov5的知识蒸馏实战源码
2022-10-13
基于Tensorrt的yolov5 实例分割源码
2023-04-18
各种卷积计算性能对比(Conv,DwConv,GhostConv,PConv,DSConv,DCNV)
2023-03-26
基于yolov5的PTQ和QAT量化完整代码
2023-03-18
图像分割FCN算法的源码及项目实战
2023-02-04
YOLOX原理及无人机检测项目实战源码
2022-11-04
模型轻量化-YOLOv5无损剪枝
2022-10-28
基于yolov5的目标检测和双目测距源码
2022-10-28
pytorch多GPU并行训练教程及源码
2022-10-16
makefile从入门到项目编译实战
2022-10-13
图像分类MobileNet系列源代码:v1-v3
2022-07-05
深度学习图像分类花朵数据集
2022-07-05
MIOU涨5.6个点:语义分割知识蒸馏源码
2024-03-20
yolov8 剪枝源码(集成多种剪枝策略)
2024-03-20
yolov8 多任务(目标检测+可行驶区域分割+车道线分割)
2024-01-07
yolov8 PTQ和QAT量化源码
2023-12-09
yolov8 知识蒸馏源码
2023-12-18
YOLO 知识蒸馏学习及落地部署(v5和v8)
2023-12-10
SOTA 跟踪论文:BoTSORT-OCSORT-StrongSORT 等
2023-12-21
yolov8 tracking支持deepocsort、strongsort、bytetrack、botsort等各类跟踪器
2023-12-21
mmsegmentation中文文档
2023-11-26
零基础掌握yolov8剪枝
2023-11-26
车道线UFLD-v2落地量化部署代码
2023-11-26
yolov7 ptq和qat训练及tensorrt部署
2023-09-16
yolov7旋转目标检测完整代码
2023-05-13
yolov8s模型进行剪枝源码
2023-05-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅