自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

@bangbang的博客

专注人工智能、图像分类、目标检测

  • 博客(621)
  • 资源 (46)
  • 收藏
  • 关注

原创 π₀(2): 代码详解

本文介绍了π₀视觉-语言-动作流模型(VLA Flow Model)及其代码实现。该模型通过复用PaliGemma预训练骨干网络,结合流匹配框架和双流Transformer架构,实现了通用机器人控制。代码支持LeRobot和RLDS两种数据格式,提供完整的数据处理流水线,包括动作分块、归一化和多相机图像处理。模型采用PyTorch和JAX双框架实现,支持分布式训练。核心创新在于将动作生成视为向量场预测问题,通过ODE求解器从噪声中迭代生成精确动作。

2026-05-18 18:12:30 76

原创 ReCogDrive(3):hidden state cache说明

ReCogDrive缓存机制解析 本文详细分析了ReCogDrive项目中VLM推理结果的缓存实现方案。核心思路是将昂贵的VLM(InternVL3)前向计算结果持久化到磁盘,在后续训练中直接读取缓存,避免重复计算。 缓存必要性 VLM模型在训练后期阶段权重冻结,但需重复处理相同图像 无缓存时:200次epoch需200次VLM前向计算(400-500ms/次) 有缓存时:磁盘读取仅需1-5ms/样本 实现方案 两种缓存模式: 缓存hidden state(VLM计算结果) 仅缓存图像路径(不含VLM计算)

2026-05-18 14:51:03 86

原创 π₀ (1):用于通用机器人控制的视觉-语言-动作流模型

本文提出π₀模型,一种基于预训练视觉-语言模型(VLM)的新型通用机器人控制框架。该模型通过流匹配技术生成高频动作(最高50Hz),支持复杂灵巧任务如衣物折叠和桌面清理。π₀在10,000小时多样化机器人数据上预训练,涵盖7种机器人构型和68项任务,并可通过微调适配新任务。实验表明,该模型能执行长时程任务(达数十分钟),支持语言指令交互,并展现跨本体泛化能力。相比传统自回归VLA模型,π₀在灵巧控制方面具有显著优势,为机器人基础模型的发展提供了新思路。

2026-05-18 14:10:04 66

原创 ReCogDrive(2): 代码深度解析

本文提出ReCogDrive框架,一种结合视觉语言模型(VLM)与扩散模型的端到端自动驾驶系统。核心创新点包括:1) 采用InternVL3/Qwen2.5-VL作为VLM主干网络进行场景理解;2) 设计认知引导的扩散规划器(DiT)生成连续轨迹;3) 提出三阶段训练流程(VLM预训练、模仿学习、DiffGRPO强化学习)。系统通过分离认知与动作生成,解决了传统方法中语言-动作不匹配问题,在8×3维轨迹生成任务上实现584ms→72ms的推理加速。代码已开源,包含完整的训练pipeline和强化学习实现。

2026-05-18 10:28:42 198

原创 BridgeDrive 代码详解

BridgeDrive论文摘要(150字) 本文提出BridgeDrive,一种基于扩散桥(Diffusion Bridge)的自动驾驶闭环轨迹规划方法。针对现有扩散模型在轨迹规划中理论不对称的问题,BridgeDrive构建了从锚轨迹(anchor)到目标轨迹的理论自洽扩散桥过程。其核心创新在于将前向过程定义为从真实轨迹到锚轨迹的扩散,反向过程则从锚轨迹出发逐步去噪生成精细轨迹,形成双向对称的扩散桥。模型采用多任务Transformer架构,通过扩散桥头(DDBM)实现轨迹优化,在NAVSIM数据集上验证

2026-05-15 16:30:29 327

原创 BridgeDrive:用于自动驾驶闭环轨迹规划的扩散桥策略

理论修正:用扩散桥解决锚点引导扩散的不对称硬伤;架构简洁:感知 - 分类 - 去噪三模块,端到端、易训练、易部署;闭环可靠:在最严苛的 Bench2Drive 上全面 SOTA,安全优先;实车可行:推理速度达标,跨数据集泛化强,具备量产潜力。它证明:diffusion 模型不是 “黑箱生成器”,只要遵守理论、结合驾驶先验、适配闭环特性,完全可以成为自动驾驶规划的安全基石。

2026-05-15 15:40:22 201

原创 leetcode (4): 连通域/岛屿问题

本文介绍了三个经典的岛屿问题解法,均基于深度优先搜索(DFS)实现: 岛屿数量问题:通过遍历网格,遇到陆地时进行DFS淹没连通区域并计数,最终统计独立岛屿数量。 飞地数量问题:采用反向思维,先淹没边界连通区域,再统计剩余陆地数量即为飞地数量。 最大岛屿面积问题:在DFS过程中计算每个岛屿的面积,并维护最大值。 三个问题的核心都是利用DFS算法处理二维网格中的连通区域,通过递归访问相邻单元格来标记或统计目标区域。解题框架相似,主要区别在于统计目标不同(岛屿数量、飞地数量或最大面积)。

2026-04-17 17:34:03 426

原创 Senna-2(1): 论文解读

视觉语言模型(VLM)凭借高层语义推理能力,能够增强端到端(E2E)自动驾驶策略的规划性能。然而,现有方法往往忽视了VLM 高层决策与端到端底层规划之间的双系统一致性问题,导致生成的,进而削弱系统的自上而下引导能力与决策执行能力。为解决这一问题,本文提出Senna‑2—— 一种面向一致决策与规划、显式对齐双系统的先进 VLM‑E2E 驾驶策略。该方法采用面向一致性的:1)驾驶预训练,完成初步决策与规划;2)开环对齐,优化 VLM 与 E2E 策略的一致性;3),在 3DGS 环境中强化驾驶安全性与效率。

2026-04-11 19:51:52 145

原创 ResAD、DiffusionDrive、DiffusionDriveV2三篇论文总结

自动驾驶端到端规划领域的三篇突破性论文(ResAD、DiffusionDrive、DiffusionDriveV2)分别解决了三个关键痛点:DiffusionDrive通过锚点先验将扩散规划速度提升至仅需2步去噪;ResAD创新性地采用残差学习方法,优化轨迹预测的稳定性;DiffusionDriveV2引入强化学习机制提升多模态候选集整体质量。这三项研究并非简单迭代,而是从不同维度(实时性、学习效率和候选质量)共同推进了自动驾驶规划技术的发展,为后续研究指明了互补融合的创新方向。

2026-04-11 19:50:51 154

原创 SparseDriveV2: 论文解读

端到端自动驾驶近年来快速发展,从UniAD到VADv2等方法的演进,展示了显式建模多模态规划的进步。主流趋势已转向生成式方法,如DiffusionDriveV2等,通过动态生成候选轨迹来处理驾驶行为的多模态特性。然而,SparseDriveV2提出了一种反思路:重新审视静态轨迹词表的潜力。研究发现,传统打分方法的瓶颈在于词表覆盖不足,而非范式本身的问题。通过解耦轨迹为几何路径和速度曲线,构建超稠密词表,并结合高效打分策略,SparseDriveV2在多个基准上达到SOTA性能。这项工作表明,在足够密集的词表

2026-04-07 22:47:19 179

原创 ResAD: 端到端归一化残差轨迹模型

本文提出ResAD框架,一种基于归一化残差轨迹建模的端到端自动驾驶方法。核心创新在于:1)通过惯性参考轨迹(匀速模型)作为基础,学习残差修正量,解耦固有运动模式与环境感知决策;2)设计逐点残差归一化模块(PRNorm),平衡时空异质性带来的优化偏差。实验表明ResAD在NAVSIM基准上表现优异。该方法通过残差学习简化复杂轨迹预测任务,使模型更稳定、泛化性更强。

2026-04-05 17:35:19 99

原创 diffusion 和 flow match详解

Diffusion模型通过模拟噪声逐步加入和去除的双向过程学习数据分布。其核心包括:前向过程逐步加噪,将数据转化为高斯噪声;反向过程训练神经网络预测噪声或原始数据,实现从噪声中生成高质量数据。前向加噪过程无需训练,通过公式计算实现。在轨迹生成中,Diffusion模型不直接预测轨迹,而是学习如何从噪声逐步还原真实轨迹分布,适合建模复杂的高维多模态分布。代码实现展示了如何基于时间步给数据添加可控噪声,以及基于锚点轨迹的加噪优化方法。

2026-04-05 15:21:35 109

原创 Hyper-Diffusion-Planner(1): 论文解读

摘要 清华AIR与小米汽车联合团队提出Hyper Diffusion Planner (HDP),首次实现纯扩散模型在自动驾驶端到端规划中的实车闭环应用。针对扩散模型在规划任务中的三大挑战(任务特性不匹配、闭环误差放大、数据规模限制),HDP通过损失空间重构(τ₀预测+τ₀损失最优配置)、混合损失设计(融合航点与速度表示)、大规模数据缩放及轻量化RL后训练,在Xiaomi SU7上完成200km实车测试,性能较基线提升10倍。实验表明,HDP的混合损失(Hybrid Loss)显著提升轨迹几何与动力学一致性

2026-03-19 16:49:10 632

原创 双向注意力(Bidirectional Attention)详解

双向注意力机制是一种同时建模两个序列间双向信息流动的注意力方法,广泛应用于机器翻译、问答系统等任务。其核心原理是同时计算两个方向的注意力:序列A→序列B和序列B→序列A,通过softmax归一化和点积运算实现信息交互。主要类型包括:对称双向注意力(使用相同参数)、非对称双向注意力(独立参数)和交叉双向注意力(交替使用方向)。相比单向注意力,它能更全面地捕捉序列间的复杂关系。实现上可通过PyTorch的MultiheadAttention模块构建,支持堆叠多层形成Transformer风格的编码器。该机制在多

2026-03-13 18:06:57 446

原创 AdaLN 原理及代码详解

AdaLN(自适应层归一化)是标准LayerNorm的条件化扩展,其核心创新在于将归一化层的缩放和平移参数改为由外部条件(如时间步、文本嵌入)动态生成。这一设计使模型能够根据输入条件自适应调整特征分布,特别适用于扩散模型、文本到图像生成等条件生成任务。AdaLN-Zero通过将偏置初始化为零确保初始状态为恒等映射,显著提升了训练稳定性。该方法已广泛应用于DiT、SD3、Sora等现代生成式AI模型,成为扩散Transformer的核心技术组件。与FiLM、AdaIN等方法相比,AdaLN保留了LayerNo

2026-03-03 20:35:18 277

原创 强化学习(1): ppo 原理及代码详解

PPO(Proximal Policy Optimization)是一种强化学习算法,通过引入裁剪机制限制策略更新幅度,平衡性能与稳定性。其核心包含4个模型(Actor、Critic、Reward、Reference)和2个损失(策略损失、价值损失)。Actor负责决策,Critic评估动作价值,Reward提供即时反馈,Reference防止策略偏离。PPO通过计算优势函数(Advantage)衡量动作优劣,并利用GAE平滑和归一化处理优化训练过程。相比传统方法,PPO能更稳定高效地学习复杂任务,广泛应用

2026-02-05 23:42:57 755

原创 clearml 工具的使用详解

ClearML是一个开源的MLOps平台,用于自动化和管理机器学习实验的全生命周期。它自动记录训练过程中的所有参数、代码、数据集和模型,提供实时可视化界面,支持团队协作、超参数优化和模型部署。推荐使用ClearML因为它:1)完全开源且可本地部署,保障数据隐私;2)集成简单(仅需两行代码);3)提供从研究到生产的无缝工作流;4)显著提升实验复现性和团队协作效率;5)免费版功能完整,无需昂贵订阅。ClearML让数据科学家专注于模型创新而非手动记录实验,大幅加速AI开发迭代周期。

2026-01-22 22:40:28 932

原创 DiffusionDriveV2 (1) : 端到端自动驾驶中受强化学习约束的截断扩散建模

DiffusionDriveV2:强化学习约束的截断扩散模型在端到端自动驾驶中的应用 本文针对端到端自动驾驶中扩散模型面临的模式崩溃问题,提出DiffusionDriveV2框架。该方法通过引入强化学习约束,解决了DiffusionDrive依赖模仿学习导致的多样性与持续高质量之间的困境。主要创新包括: 采用尺度自适应乘法噪声促进广泛探索 提出锚点内GRPO管理单个锚点样本间的优势估计 设计锚点间截断GRPO整合全局视角,避免不同驾驶意图间的不当比较 实验表明,该方法在NAVSIM基准测试中达到最先进水平(

2026-01-17 23:03:38 312

原创 python 学习: dataclasses_json的使用

摘要:dataclasses_json是Python中简化数据类与JSON转换的库,支持序列化/反序列化操作。通过@dataclass_json装饰器可快速实现数据类与JSON/字典的相互转换,支持嵌套数据类、可选字段和默认值处理。主要方法包括to_json()、from_json()、to_dict()和from_dict(),适用于API开发、配置文件处理等场景,能显著减少数据转换的代码量。安装简单,只需执行"pip install dataclasses-json"命令即可使用。

2025-12-16 15:01:25 433

原创 分析CUDA内存泄漏、分布

PyTorch 的 torch.cuda.memory._record_memory_history(True) 是一个用于调试 CUDA 内存问题的工具,可以记录内存分配/释放的历史轨迹。开启后,它会记录操作时间、内存地址、大小和调用栈等信息,帮助定位内存泄漏、异常分配和内存碎片等问题。使用时需注意性能开销,仅建议在调试阶段使用。通过 _snapshot() 生成内存快照后,可用 _parse_snapshot() 分析未释放的内存块及其调用栈。该工具适用于复杂内存问题排查,简单问题可使用 memory_

2025-12-16 14:59:52 110

原创 LayerNorm 的原理

层归一化(LayerNorm)是神经网络中一种重要的归一化技术,主要用于稳定训练和加速收敛。与批归一化(BatchNorm)不同,LayerNorm对单个样本的所有特征进行归一化,而非跨样本归一化。其核心原理是通过标准化隐藏层的输入分布,解决深度学习中常见的内部协变量偏移问题。LayerNorm尤其适用于NLP任务,因其不依赖batch大小,能处理变长输入。在Transformer架构中,LayerNorm被广泛用于各子层后,配合残差连接使用。PyTorch实现时需指定归一化维度,且训练和推理行为一致,无需

2025-12-16 14:58:55 602

原创 diffusiondrivev2 模型(1):原理讲解

Diffusion 模型(扩散模型)是一种基于概率生成模型的深度学习架构,核心思想源于统计物理学中的 “扩散过程”—— 通过模拟“噪声逐渐加入”和“噪声逐步去除”的双向过程,学习数据的真实分布,最终实现从随机噪声中生成高质量数据(如图像、文本、音频等)。

2025-12-16 14:57:51 337

原创 Diffusion Planner(1): 论文解读

本文提出了一种基于Transformer架构的扩散规划模型(Diffusion Planner),用于解决自动驾驶中复杂开放环境下的闭环规划问题。该模型创新性地利用扩散模型对多模态驾驶行为进行建模,并通过分类器引导机制实现安全且自适应的规划行为。与现有方法相比,该模型无需依赖基于规则的修正即可生成高质量轨迹,同时支持预测与规划任务的联合建模。在nuPlan基准测试和200小时配送车辆数据集上的实验表明,该模型在闭环性能和迁移能力方面均优于现有基准方法。项目代码和数据已开源。

2025-10-26 18:16:35 328

原创 DiffusionDrive(1): 论文解读

本文提出DiffusionDrive,一种创新的端到端自动驾驶扩散模型。针对传统扩散策略在交通场景中的模态崩溃和计算效率问题,我们提出截断扩散策略:通过引入先验多模态锚点构建锚定高斯分布,将去噪步骤从20步大幅缩减至2步。同时设计高效的级联扩散解码器增强场景交互能力。实验表明,在NAVSIM数据集上,DiffusionDrive以ResNet-34骨干网络取得88.1 PDMS的新记录,推理速度达45 FPS;在nuScenes数据集上相比VAD提升1.8倍速度并降低20.8%轨迹误差。该工作首次将扩散模型

2025-10-13 14:50:30 388

原创 MapDistill:通过相机 - 激光雷达融合模型蒸馏提升高效基于相机的高清地图构建性能

摘要 本文提出MapDistill,一种基于知识蒸馏的高效相机高清地图构建方法。针对纯相机方法缺乏深度信息导致性能受限的问题,作者创新性地将相机-LiDAR融合模型作为教师模型,轻量级相机模型作为学生模型,通过双BEV转换模块实现跨模态知识迁移。方法包含三部分蒸馏策略:跨模态关系蒸馏促进特征对齐,双层次特征蒸馏实现语义知识迁移,以及专门设计的地图头蒸馏优化最终预测。在nuScenes数据集上的实验表明,MapDistill相比现有方法可实现7.7 mAP提升或4.5倍推理加速,为高效高清地图构建提供了新思路

2025-09-29 17:41:26 426

原创 ReCogDrive(1): 论文解读

本文提出ReCogDrive系统,通过融合视觉-语言模型(VLM)与扩散规划器,有效解决端到端自动驾驶在长尾场景中的性能下降问题。系统采用三阶段训练:首先利用310万驾驶问答数据适配VLM,再通过扩散模型将语言表征映射为连续轨迹,最后用强化学习优化轨迹安全性。在NAVSIM基准测试中取得89.6的PDMS最高分,较现有方法提升5.6分,显著提升了罕见场景下的驾驶性能。

2025-09-29 15:01:45 230

原创 qwen2.5vl(2):lora 微调训练及代码讲解

本文介绍了使用Qwen2.5VL-7B-Instruct模型在COCO2014图像描述数据集上进行LoRA微调训练的过程。主要内容包括:1)环境配置,安装transformers、peft等框架及SwanLab训练监控工具;2)数据集准备,从ModelScope下载1000张COCO图像并处理为CSV格式;3)数据格式转换,将图像和描述转换为模型训练所需的JSON格式;4)使用SwanLab进行训练可视化,监测loss、梯度等指标变化。该项目实现了多模态图像描述任务的微调训练,代码和模型已开源。

2025-08-23 15:06:32 681

原创 多模态大语言VLM模型综述

摘要: 多模态大语言模型(MLLM)通过融合视觉编码器与大语言模型(LLM),展现出跨模态理解和推理的涌现能力。本文系统梳理了MLLM的核心架构(编码器-适配器-LLM)、训练策略与评估体系,并探讨了细粒度模态扩展、多语言支持及幻觉缓解等关键技术。研究显示,提升输入分辨率和LLM规模可显著增强性能,而多模态上下文学习(M-ICL)、思维链(M-CoT)等技术进一步优化了复杂任务表现。当前挑战包括模态对齐精度和计算效率,未来方向可能聚焦于多模态智能体开发与低资源场景适配。相关资源持续更新于GitHub项目。

2025-08-23 14:52:45 501

原创 qwen2.5vl(1): 环境安装及运行

本文介绍了Qwen2.5-VL-7B-Instruct多模态大模型的安装部署流程。主要内容包括:1)环境配置,详细列出CUDA 12.1、Python 3.12等依赖项安装命令;2)模型权重下载方法,通过modelscope库获取;3)代码运行示例,提供图像描述任务的测试脚本;4)Web界面部署指南,展示交互式演示效果;5)针对"GET engine"错误的解决方案,建议卸载冲突的cuDNN库。文章还包含关键步骤的截图说明,帮助用户快速搭建和运行该视觉语言大模型。

2025-08-19 21:37:36 314

原创 Qwen2.5VL技术报告解读

Qwen2.5-VL是Qwen团队推出的最新视觉语言模型,在基础能力和创新功能上实现重大突破。该模型具备增强的视觉识别、精准物体定位、强大文档解析和长视频理解能力,支持边界框定位和结构化数据提取。创新性地采用动态分辨率处理技术和绝对时间编码机制,可处理不同尺寸图像和长达数小时的视频内容。Qwen2.5-VL提供三种规格版本,旗舰级72B模型在文档和图表理解方面达到与GPT-4o、Claude 3.5相当的水平,同时保持出色的语言理解能力。技术亮点包括窗口注意力机制优化计算效率、动态FPS采样、改进的时序MR

2025-08-19 21:35:50 481

原创 yolo world (1): 论文解读

摘要 本文提出了一种创新的开放词汇目标检测方法YOLO-World,通过结合视觉-语言建模和大规模数据集预训练,显著提升了YOLO系列检测器的泛化能力。针对传统目标检测器局限于预定义类别的问题,YOLO-World引入可重参数化视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,有效整合视觉与语言信息。该方法在LVIS数据集上实现了35.4 AP的零样本检测性能,同时保持52 FPS的实时推理速度。实验表明,YOLO-World在准确性和效率方面均优于现有方法,并展现出强大的下游任务适应能力,

2025-08-09 21:25:38 267

原创 occworld(1):论文解读

本文提出了一种3D Occupancy空间中的世界模型OccWorld,用于自动驾驶场景的演化预测和轨迹规划。不同于传统基于3D包围框的方法,OccWorld利用3D语义occupancy作为场景表示,能更细粒度地描述场景结构且成本更低。该方法通过基于重建的scene tokenizer将3D occupancy离散化为token,并采用类似GPT的时空transformer自回归预测未来occupancy和自车轨迹。在nuScenes数据集上的实验表明,OccWorld在4D占用预测任务中达到26.63

2025-08-09 21:24:29 401

原创 pip 查找包的所有版本

该文介绍了智能农业中物联网技术的应用现状与发展趋势。文章指出,物联网通过传感器网络、云计算等技术,实现了农业生产环境的智能监测与控制。重点分析了物联网在精准灌溉、病虫害预警、产量预测等领域的应用案例,并探讨了5G、AI等新技术与物联网融合带来的新机遇。最后,文章总结了当前面临的设备成本、数据安全等挑战,并对未来智慧农业的发展方向进行了展望。

2025-08-09 21:23:29 283

原创 小米MiMo-VL技术报告解读

小米开源多模态大模型MiMo-VL实现性能突破 小米最新开源的MiMo-VL多模态大模型在40项评测任务中,有35项超越Qwen-VL-7B,并在OlympiadBench上以59.4分超越78B参数模型。该模型采用四阶段预训练(2.4万亿token)结合混合强化学习(MORL)的创新方法,包含ViT视觉编码器、MLP投影器和MiMo-7B语言模型三大组件。研究揭示了长思维链推理数据对预训练的关键作用,以及混合强化学习在多能力同步优化中的挑战。模型特别在GUI定位(OSWorld-G 56.1分)和多模态推

2025-08-09 17:26:10 971

原创 ORION(1): 论文解读

小米汽车与华中科技大学联合提出ORION框架,通过视觉语言模型(VLM)指导端到端自动驾驶,解决了现有方法在闭环评估中因果推理不足的问题。该框架创新性地融合QT-Transformer(聚合长期历史信息)、大语言模型(场景推理)和生成式规划器(轨迹预测),实现了语义推理与动作空间的精准对齐。在Bench2Drive数据集测试中,ORION以77.74驾驶评分和54.62%成功率显著超越现有最优方法,分别提升14.28分和19.61个百分点,展现出卓越的闭环驾驶性能。

2025-08-09 14:09:22 587

原创 基于SD地图增强无图车道线和拓扑推理

本文提出了一种标准定义(SD)地图增强的自动驾驶场景感知和拓扑推理框架SEPT,旨在解决无地图驾驶系统在长距离和遮挡场景下的感知局限。通过创新性地融合SD地图与鸟瞰图(BEV)特征,提出混合特征融合策略结合栅格化和矢量化表示,并设计双重特征对齐机制解决空间错位问题。此外,引入基于SD地图的交叉路口感知关键点检测(IKPD)辅助任务,显著提升场景理解能力。在OpenLane-V2数据集上的实验表明,该方法在场景感知和拓扑推理任务中均取得显著性能提升,优于现有方法。

2025-08-05 21:30:30 472

原创 首个自动驾驶VLA综述介绍

近日,来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队联合发布了全球首篇针对自动驾驶领域的视觉-语言-行动(Vision-Language-Action, VLA)模型的全面综述。这篇题为《A Survey on Vision-Language-Action Models for Autonomous Driving》的论文,系统性地梳理了VLA在自动驾驶(VLA4AD)领域的前沿进展,深入剖析了其架构演进、核心技术与未来挑战。论文GitHub仓库已同步上线,收录了超过20个代表性模型和相关数据

2025-07-12 10:22:02 436

原创 OmegaConf 使用详解与案例说明

OmegaConf 是一个 Python 配置管理库,支持层级配置、多源合并和变量插值。摘要如下: 核心功能 支持 YAML/JSON/字典等多种配置格式 提供配置合并、变量插值、运行时修改功能 包含类型安全检查和转换 基本操作 从字典/YAML创建配置对象 通过点语法访问嵌套配置项 使用merge()合并多个配置源 支持环境变量插值 类型转换 通过to_container()将OmegaConf对象转为Python原生字典 resolve参数控制是否解析变量插值 典型应用:管理项目配置,支持开发/生产环境

2025-07-08 14:58:26 576

原创 sparseDrive(2):环境搭建及效果演示

环境安装及效果演示

2025-06-15 22:31:20 550

原创 一文盘点完全端到端的主流方法

本文综述了端到端自动驾驶技术的最新进展,重点分析了UniAD、VAD、UAD等多篇前沿论文的核心算法。这些方法通过神经网络直接处理传感器数据输出控制指令,避免了传统模块化系统的信息损失和误差累积。文章详细解读了各算法的创新设计:UniAD首次整合感知-预测-规划全流程;VAD采用高效的矢量化表示;UAD引入自回归预测机制;Hydra-MDP通过多模态多头蒸馏赢得CVPR竞赛。研究显示,端到端方法在计算效率、OOD问题处理和长尾场景适应性方面具有显著优势,为自动驾驶系统提供了更统一的解决方案。

2025-06-15 17:37:00 191

基于yolov5的知识蒸馏实战源码

知识蒸馏是提升网络性能的方法,通过一个教师网络指导学生网络的学习,将教师网络学习到的知识迁移到学生网络上。 整个项目包括: 1. 完整知识蒸馏原理教程及环境配置说明 2. 提供完整的数据及处理代码 3.提供完整的yolov5蒸馏代码 只要按照教程说明操作,就能理解蒸馏代码并掌握 整个知识蒸馏代码包括: 1. 完整知识蒸馏原理教程及环境配置说明 2. 提供完整的数据及处理代码 3.提供完整的yolov5蒸馏代码 只要按照教程说明操作,就能理解蒸馏代码并掌握 项目博客:https://bangbang.blog.csdn.net/article/details/126065848

2022-10-13

Tensorrt部署方案

1. 如何正确导出onnx 2. 动态bath和宽高 3. 自定义插件 4. 高性能低耦合部署方案

2023-04-18

基于Tensorrt的yolov5 实例分割源码

代码包括 - 1. onnx转 tensorrt engine - 2. 基于engine 的模型推理 - 3. 测试的模型文件

2023-04-18

各种卷积计算性能对比(Conv,DwConv,GhostConv,PConv,DSConv,DCNV)

各种卷积计算性能对比(Conv,DwConv,GhostConv,PConv,DSConv,DCNV),包括推理时间,GFlops,FPS

2023-03-26

基于yolov5的PTQ和QAT量化完整代码

1. quant_flow_ptq_int8.py是PTQ int8量化脚本 2. quant_flow_qat_int8.py 是QAT int8量化脚本 3. quant_flow_ptq_sensitive_int8.py 是敏感层分析的脚本

2023-03-18

模型量化校准代码: max,histogram,entropy

模型量化校准代码: max,histogram,entropy

2023-03-18

基于ncnn部署yolov5及量化

文件中包括以下内容: 1. yolov5 转ncnn的权重文件 2. ncnn的依赖库 3. 完整的源代码

2023-02-15

图像分割FCN算法的源码及项目实战

图像分割FCN算法的源码及项目实战 1. 项目博客: https://blog.csdn.net/weixin_38346042/article/details/128719053?spm=1001.2014.3001.5502

2023-02-04

模拟TensorRT int8量化代码

模拟了2个conv的8bit量化工作

2022-11-14

基于coco数据集的yolox模型预训练权重

yolox模型预训练权重

2022-11-07

基于YOLOv7的人体姿态估计讲解及源码

YOLOv7是YOLO家族中第一个包含人体姿态估计模型的。

2022-11-04

YOLOX原理及无人机检测项目实战源码

利用自定义无人机数据集训练YOLOX 数据修改 搭建YOLOX训练环境 使用Conda创建虚拟环境 安装Jupyter和ipykernel 克隆YOLOX GitHub库 安装依赖包 自定义数据集训练 YOLOX推理测试效果 结论

2022-11-04

模型轻量化-YOLOv5无损剪枝

运行顺序: 1. 原始训练,得到一个最优mAP等评价指标 2.通过调整BN稀疏值sr,运行train_sparity.py稀疏训练得到一个稍微小的模型 3. 将训练好的last.pt 放到prune.py 中进行剪枝,控制剪枝率; 4. Finetune得到最优模型

2022-10-28

基于yolov5的目标检测和双目测距源码

包括: 1.yolov5 +sgbm算法集成 2. C++实现sgbm 3.python 实现sgbm 4. jetson tensort 部署 项目参考博客:https://blog.csdn.net/weixin_38346042/article/details/126807379?spm=1001.2014.3001.5501

2022-10-28

pytorch多GPU并行训练教程及源码

多GPU启动指令说明: 1.如果要使用train_multi_gpu_using_launch.py脚本,使用以下指令启动 python -m torch.distributed.launch --nproc_per_node=8 --use_env train_multi_gpu_using_launch.py其中nproc_per_node为并行GPU的数量

2022-10-16

基于yolov5的模型剪枝项目实战源码

对yolov5s进行稀疏化训练并剪枝,模型参数下降80%,mAP精度几乎不受影响

2022-10-13

makefile从入门到项目编译实战

参考B站视频: https://www.bilibili.com/video/BV1Xt4y1h7rH/?p=3&spm_id_from=333.880&vd_source=d817bda3198969666552c553deaea683

2022-10-13

利用SGBM算法进行双目测距

利用SGBM算法进行双目测距

2022-09-11

图像分类MobileNet系列源代码:v1-v3

完整的MobileNet v1-v3的源代码,包括模型脚本、训练以及预测脚本。并有完整的博客介绍: 1. MobileNet系列(1) :MobileNet V1网络详解:https://blog.csdn.net/weixin_38346042/article/details/125329726?spm=1001.2014.3001.5501 2. MobileNet系列(2):MobileNet-V2 网络详解:https://blog.csdn.net/weixin_38346042/article/details/125355111?spm=1001.2014.3001.5501 3.MobileNet系列(4):MobileNetv3网络详解:https://blog.csdn.net/weixin_38346042/article/details/125470446?spm=1001.2014.3001.5501

2022-07-05

深度学习图像分类花朵数据集

包括四类花朵:daisy 、dandelion、roses、sunflowers ### 使用步骤如下: * (1)在data_set文件夹下创建新文件夹"flower_data" * (2)点击链接下载花分类数据集 [http://download.tensorflow.org/example_images/flower_photos.tgz](http://download.tensorflow.org/example_images/flower_photos.tgz) * (3)解压数据集到flower_data文件夹下 * (4)执行"split_data.py"脚本自动将数据集划分成训练集train和验证集val ``` ├── flower_data ├── flower_photos(解压的数据集文件夹,3670个样本) ├── train(生成的训练集,3306个样本) └── val(生成的验证集,364个样本) ```

2022-07-05

车道线Bev模型学习文档

车道线Bev模型学习文档

2025-03-10

yolov5 剪枝和量化,代码一键运行

1. 通过剪枝压缩了70%以上,几乎不影响精度 2. 提供量化感知训练的代码及tensorrt部署的代码

2023-09-16

MIOU涨5.6个点:语义分割知识蒸馏源码

教师模型Deeplab-V3 + (ResNet-101) miou为77.85 学生模型Deeplab-V3 + (ResNet-18) miou为67.5 经过蒸馏后,学生模型Deeplab-V3 + (ResNet-18) miou提升5.6个点,达到73.09。 比Student + LAD 和Student + CIRKD高大概2个点,比Student + DistKD高三个点 本项目提供的蒸馏方法,代码简单易用。

2024-03-20

yolov8 剪枝源码(集成多种剪枝策略)

支持以下的剪枝方法,代码一键运行,并配有md文档说明: (1) lamp 剪枝 (2) slimming 剪枝 (3) group slimming 剪枝 (4) group hessian 剪枝 (5) Taylor 剪枝 (6)Regularization 剪枝 等等

2024-03-20

yolov8 多任务(目标检测+可行驶区域分割+车道线分割)

(1)开发了一个轻量级模型,能够将三个任务集成到一个统一模型中。这对于需要实时处理的多任务特别有利。 (2)设计了一个轻量级、简单且通用的分割头。对于同一类型的任务头,我们有统一的损失函数,这意味着我们不需要针对特定​​任务进行定制设计。它仅由一系列卷积层构建。

2024-01-07

yolov8 PTQ和QAT量化源码

1.使用pytorch_quantization对yolov8进行量化: 包括ptq量化、敏感层分析、qat量化 2.修改ptq、qat、敏感层分析配置参数后直接运行 python yolov8_ptq_int8.py 其中: (1) quant_flow_ptq_int8.py是PTQ int8量化脚本 (2) quant_flow_qat_int8.py 是QAT int8量化脚本 (3)quant_flow_ptq_sensitive_int8.py 是敏感层分析的脚本

2023-12-09

yolov8 知识蒸馏源码

1. 本项目支持多种蒸馏方式,并对蒸馏代码进行详解,比较容易上手。支持 logit和 feature-based蒸馏以及在线蒸馏: (1)在线蒸馏 (2)logit 蒸馏 (3)mimic 特征蒸馏 (4)cwd: channel-wise distillation 特征蒸馏 (5)mgd: masked generative distillation 特征蒸馏 2. 代码通俗易懂,易于掌握

2023-12-18

YOLO 知识蒸馏学习及落地部署(v5和v8)

CWD、MGD、以及Mimic异构蒸与自蒸馏随便选择 项目支持yolov5,yolov8 的知识蒸馏; OTA, 解耦头的灵活配置

2023-12-10

SOTA 跟踪论文:BoTSORT-OCSORT-StrongSORT 等

SOTA 目标跟踪论文,精度这几篇就够够的了 (1)BoTSORT (2)OCSORT| (3)StrongSORT (4)HybridSORT (5)DeepOCSORT (6)ByteTrack

2023-12-21

yolov8 tracking支持deepocsort、strongsort、bytetrack、botsort等各类跟踪器

1. 项目支持各类SOTA多目标跟踪器,包括BoTSORT、DeepOCSORT、OCSORT、HybirdSORT、ByteTrack、StrongSORT 2. 项目支持分割、检测、姿态估计的实时跟踪Tracking 3. 项目不仅支持yolov8,还集成了包括集成了yolo-nas、yolox、yolov8-pose等检测、分割、姿态估计模型来

2023-12-21

Yolo v1-v8 改进点汇总

Yolo v1-v8 改进点汇总

2023-12-09

mmsegmentation中文文档

MMSegmentation是openmmlab项目下开源的图像语义分割框架,目前支持pytorch,由于其拥有pipeline加速,完善的数据增强体系,完善的模型库,作为大数据语义分割训练及测试的代码框架是再好不过了。

2023-11-26

零基础掌握yolov8剪枝

Before Pruning: MACs=129.092051 G, #Params=68.229648 M After Pruning: MACs=41.741203 G, #Params=20.787528 M

2023-11-26

车道线UFLD-v2落地量化部署代码

1. UFLD系列的车道线检测算法一直以来都是速度和精度的完美均衡而著称 2. 代码包括了全流程的算法落地方案,包括: (1)Int8的模型量化 (2)基于TensorRT来部署int8量化模型 (3)同时也适配FP32和FP16模型

2023-11-26

单目3D SMOKE PTQ量化代码

1. 单目3D SMOKE PTQ量化精度几乎无损 2. 工业级量化方法

2023-11-26

BevDet的PTQ量化代码

1. 环视BEV 3D目标检测算法int8量化 2. BevDet的PTQ int8 量化,精度几乎无损

2023-11-26

yolov7 ptq和qat训练及tensorrt部署

内容包括: (1) yolov7 的ptq和qat 的python 训练脚本 (2) 提供完整的基于tensort 的c++ 部署代码 (3) 详细的代码注释,帮助理解代码

2023-09-16

labelme 分割转换(voc coco) 及可视化

- labelme2coco.py - labelme2voc.py - labelme2voc_obj.py

2023-05-17

yolov7旋转目标检测完整代码

markdown有详细的代码使用说明,可以很容易运行代码 1. 提供检测的数据集 2. 支持各类数据增强 3. 支持TensorRT部署 4. 支持多GPU训练及单GPU或CPU训练

2023-05-13

yolov8s模型进行剪枝源码

实现步骤: 1. yolov8s模型预训练 2. 模型稀疏化sparsity 3.剪枝 4. finetune 经过键枝后,finetune60个epoch达到原模型迭代52个epoch的mAP值0.78,模型的大小减少了2/5。

2023-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除