自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4824)
  • 资源 (4)
  • 收藏
  • 关注

原创 【无标题】

【代码】【无标题】

2026-01-13 09:52:58 336

原创 自动驾驶世界模型-范式03-OneWordl-01:Enhancing End-to-End Autonomous Driving with Latent World Model

在自动驾驶中,端到端 规划器直接利用原始传感器数据,使其能够提取更丰富的场景特征并相比传统规划器减少信息损失。这提出了一个关键研究问题:我们如何开发更好的场景特征表示,以在端到端驾驶中充分利用传感器数据?自监督学习方法在自然语言处理和计算机视觉中已在学习丰富的特征表示方面取得了巨大成功。受此启发,我们提出了一种用于端到端驾驶的新型自监督学习方法,基于潜在世界模型(LAtent World,简称LAW)。LAW 根据当前特征和自车轨迹预测未来场景特征。

2026-01-12 22:54:01 528

原创 自动驾驶世界模型-范式02-BEV&规划-04:HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Underst

Xin Zhou1∗, Dingkang Liang1∗†, Sifan Tu1\mathrm { T u ^ { 1 } }Tu1 , Xiwu Chen3, Yikang Ding2†\mathrm { D i n g ^ { 2 \dagger } }Ding2† , Dingyuan Zhang1, Feiyang Tan3\mathrm { T a n ^ { 3 } }Tan3 , Hengshuang Zhao4, Xiang Bai1B1 Huazhong University of Sc

2026-01-12 22:37:12 783

原创 自动驾驶世界模型-范式02-BEV&规划-03:BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Leve

Yumeng Zhang Shi Gong Kaixin Xiong Xiaoqing Ye† Xiaofan Li Xiao Tan Fan Wang Jizhou Huang† * Hua Wu Haifeng Wang Baidu Inc., China {zhangyumeng04,gongshi,yexiaoqing,huangjizhou01}@baidu.comWorld models have attracted increasing attention in autonomous driv

2026-01-12 22:30:38 957

原创 自动驾驶世界模型-范式02-BEV&规划-02:Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and

Yu Yang 1*, Jianbiao Mei 1*, Yukai Ma 1, Siliang Du2†\mathbf { D } \mathbf { u } ^ { 2 \dag }Du2† , Wenqing Chen 2, Yijie Qian 1, Yuxiang Feng 1, Yong Liu 1†1Zhejiang University 2Huawei Technologies{yu.yang, jianbiaomei, yukaima, yijieqian, yuxiangfeng}@z

2026-01-12 22:25:28 853

原创 自动驾驶世界模型-范式02-BEV&规划-01:OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

Wenzhao Zheng1,* Weiliang Chen2,* Yuanhui Huang1 Borui Zhang1 Yueqi Duan2 Jiwen Lu1{ \mathrm { L } } { \mathrm { u } } ^ { 1 }Lu1 Department of Automation, Tsinghua University, China Department of Electronic Engineering, Tsinghua University, Chinawenzhao.z

2026-01-12 22:05:41 682

原创 自动驾驶世界模型-综述02:The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey

驾驶世界模型 (DWM) 专注于预测驾驶过程中的场景演化,已成为追求自动驾驶的一个有前景的范式。这些方法使自动驾驶系统能够更好地感知、理解并与动态驾驶环境交互。在本综述中,我们对DWM 的最新进展进行了全面概述。我们根据被预测场景的模态对现有方法进行了分类,并总结了它们对自动驾驶的具体贡献。此外,我们回顾了对DWM 研究中不同任务量身定制的高影响力数据集和各种评估指标。最后,我们讨论了当前研究的潜在局限性并提出了未来方向。本综述为 DWM 的发展和应用提供了有价值的见解,促进其在自动驾驶中的更广泛采纳。

2026-01-12 21:32:05 584

原创 自动驾驶世界模型-范式01-视频生成-01:DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT

Xiaotao Hu1,2\mathrm { { H u ^ { 1 , 2 } } }Hu1,2 * Wei Yin2∗†\mathrm { Y i n ^ { 2 } \ast \dagger }Yin2∗† Mingkai Jia1,2 Junyuan Deng1,2 Xiaoyang Guo2 Qian Zhang2 Xiaoxiao Long1 ‡ Ping Tan11 The Hong Kong University of Science and Technology 2 Horizon Rob

2026-01-12 21:21:40 904

原创 自动驾驶世界模型-范式01-视频生成-02:Driving into the Future: Multiview Visual Forecasting and Planning with

1∗ Lue Fan1∗ Hongxin Li⁡1∗\operatorname { L i } ^ { 1 * }Li1∗ Yuntao Chen2B Zhaoxiang Zhang1,2B 1CASIA 2CAIR, HKISI, CAS Project Page: https://drive-wm.github.ioCode: https://github.com/BraveGroup/Drive-WMFigure 1. Multiview visual forecasting and planni

2026-01-12 21:11:32 630

原创 Cosmos 世界模型和开源的 Alpameo,DeepSeek的HiStream, mHC, Emu2,

下面把你提到的几项逐一整理成「论文(Paper)/ 代码(Code)」入口。备注:你写的目前主流官方拼写是(我按官方名称给链接)。另外并非 DeepSeek 出品(HiStream 作者来自 Meta AI/NTU,Emu2 来自 BAAI),但我仍按你的清单提供对应论文与代码。

2026-01-12 00:31:44 769

原创 UMM:Unified Multimodal Understanding & Generation,统一“理解+生成”

同时支持“多模态理解”(如 VQA、OCR、推理)与“多模态生成”(如 T2I、编辑、混合模态生成),而不是“理解模型 + 外挂扩散模型”的松耦合拼装。下面按你给的 UMM 综述(arXiv:2505.02567)里常用的范式划分(做一次更工程化的二次筛选,我也可以在这张表的基础上继续细化。说明:UMM 通常指。

2026-01-12 00:30:34 693

原创 自动驾驶世界模型训练范式:① 视频生成从头训⮕BEV/occupancy→规划;② 视频生成从头训⮕latent world model;③视频生成从头训⮕联合多任务头预训练

并且论文目标/实验明确服务于(如轨迹评估、规划选择、规划监督、闭环评测等),而不仅是单纯做预测/生成。

2026-01-11 23:58:22 711

原创 CarDreamer: Open-Source Learning Platform for World Model based Autonomous Driving

模态是否内置用途RGB 图像✅场景与动态建模Ego 状态✅控制与物理一致性Action✅世界转移条件LiDAR🔁几何世界建模🔁长时结构预测语义标签🔁评估 / 辅助监督CarDreamer 的核心价值不在于“模型最大”,而在于:它是目前唯一成熟的、开源的、面向自动驾驶世界模型“训练 + 想象 + 策略学习”的完整系统。🔧如何把 UniWorld / Occupancy world model 接入 CarDreamer🧠。

2026-01-11 23:26:54 798

原创 开环(open-loop)、闭环(closed-loop)

在这篇综述里,“”和“”主要是在讲。

2026-01-11 22:18:48 290

原创 三维高斯溅射(3DGS)

下面整理一份(按方向分组),每条都给出。

2026-01-11 20:47:05 662

原创 Dreamer Series

段落里,作者把 Dreamer 系列起源于 3 篇经典 Dreamer 工作,并指出其在自动驾驶方向扩展为。(其中三篇“Dreamer 起源”论文在该综述的参考文献编号为。

2026-01-11 19:05:28 191

原创 自动驾驶常用传感器全景:Camera / LiDAR / Radar / IMU / GNSS 各自解决什么问题?

传感器:即使所有外部环境传感器暂时失效,IMU 仍可感知车辆自身的加速、转向等动态,从而用于短时的自主定位(惯性导航)。IMU 输出的。

2026-01-11 10:34:05 680

原创 《自动驾驶常用传感器全景:Camera / LiDAR(激光雷达->3D 点云) / Radar(毫米波雷达->测量距离、速度和方位) / IMU / GNSS 各自解决什么问题?》

Camera:给自动驾驶“理解世界的语义能力”——车道、灯、牌、类别、规则LiDAR:给自动驾驶“可靠的三维几何能力”——距离、结构、建图与定位特征Radar:给自动驾驶“全天候的动态感知能力”——远距、速度、雨雾冗余IMU:给自动驾驶“高频连续的运动状态”——姿态、去畸变、短时连续性GNSS:给自动驾驶“全局绝对基准”——全球坐标与长期不漂的参考关键能力有冗余退化模式可控标定与同步可靠融合策略能自动调权,适应环境变化。

2026-01-10 22:35:18 378

原创 UMM01:统一多模态理解与生成模型:进展、挑战与机遇

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and OpportunitiesXinjie Zhang*, JintaoGuo*, Shanshan Zhao*, Minghao Fu, Lunhao Duan, Jiakui Hu, Yong Xien Chng, Guo-Hua Wang, Qing-Guo Chen†, Zhao Xu, Weihua Luo, Kaifu Zhang摘要——

2026-01-10 22:21:49 645

原创 自动驾驶-知识体系

这套栏目不是“为了全面”,而是为了:你写 2–3 年后,这个栏目体系依然不过时。如果你愿意,下一步我可以直接帮你做一件更实战的事✅ 给你每个栏目 5 个「2026 年还能写、还能被读、还能体现水平」的文章选题或者把它进一步压缩成 6 个“最有含金量”的算法栏目你更倾向哪一个?

2026-01-10 21:25:22 847

原创 自动驾驶世界模型综述01:A Survey of World Models for Autonomous Driving【arXiv:2501.11260】

世界模型是一种生成式的时空神经系统,它将外部物理环境编码为紧凑的潜在状态,联合捕获几何、语义和因果上下文[36]。这种内部状态是在无标签条件下学习得到的:系统首先采用一种自学习压缩器,将原始传感器帧压缩为少量关键数值;随后,一个具备时间感知能力的预测模块利用隐藏状态和智能体的动作来推断下一个隐藏状态,从而使智能体能够在真实世界中行动之前,在其“心智”中预演完整的轨迹[67, 68]。

2026-01-10 12:02:36 65

原创 自动驾驶世界模型综述01:A Survey of World Models for Autonomous Driving【2025 年 9 月 7 日】

Recent breakthroughs in autonomous driving have been propelled by advances in robust world modeling, fundamentally transforming how vehicles interpret dynamic scenes and execute safe decision-making. World models have emerged as a linchpin technology, offe

2026-01-10 11:04:21 41

原创 FLOPs计算详解-LLM训练-基础知识01-3:反向传播【损失函数对反向传播的影响】

很合理,而且——只要你做的那件事,其实是:对每一层,先有一个「上游梯度」(G = \frac{\partial L}{\partial Y}),然后用这一层的局部计算规则,算出(\displaystyle dW) 和。

2026-01-05 21:06:50 21

原创 FLOPs计算详解-LLM训练-基础知识01-2:反向传播【反向传播中的dX代表什么:传给前一层来计算dW的上游梯度】【在最后一层:dX=∂L/∂X=∂L/∂Y·∂Y/∂X=GWᵀ】

我们整理一下三个 dW 和两个 dX:$$4pt4pt4pt4pt4pt4pt{(3)}w{(2)}$$dX3y−tw3dX2y−tw3w2dX3dX2​y−tw3y−tw3w2​你可以看到,对于层ℓ\ellℓ和它前一层ℓ−1\ell-1ℓ−1dWℓ−1Xℓ−1⋅dXℓ\boxed{dWℓ−1Xℓ−1⋅dXℓ​所以d。

2026-01-05 21:04:38 19

原创 AI系统架构图

https://infrasys-ai.github.io/aisystem-docs/https://www.bilibili.com/video/BV1F8taeDEFP/?vd_source=e9d66d9407f5a18bdac65fb386a13c36

2026-01-02 22:12:30 31

原创 世界模型(World Models)进展全景调研(截至 2025-08)

A5) 2019-07(待核验) | C-SWM:Contrastive Structured World Models(Kipf et al.)A6) 2019-07(待核验) | SLAC:Stochastic Latent Actor-Critic(Lee et al.)A3) 2015-12(背景注记,待核验) | Embed to Control(E2C,Watter et al.)Nature 2020)Repro/Code:werner-duvaud/muzero-general(社区)

2025-12-30 22:34:59 132

原创 视触觉模型中的循环一致性:概念、动机、框架与前沿综述

版本,我也可以直接给你一份可粘贴的完整稿。

2025-12-26 20:47:59 34

原创 “模型权重参数”、“算子”、PyTorch权重、ONNX、ONNXRuntime、Opset、rdk、rknn、TensorRT的关系

ONNX 算子集的版本号,定义了可用的算子及其行为。模型参数 ≠ 算子参数是数据,存储在权重文件中算子是操作,定义在模型代码中PyTorch → ONNX 转换算子需要映射到 ONNX 算子集Opset 版本决定可用算子参数直接复制,格式转换Opset 版本选择根据部署环境选择平衡兼容性和性能Opset 11 兼容性最好,Opset 17 功能最全ONNXRuntime 推理需要支持模型中的所有算子不同后端支持不同提前验证兼容性。

2025-12-25 19:47:15 37

原创 PyTorch模型导出为ONNX格式时的算子替换:融合算子⮕基础算子【ATen 的算子注册机制】

PyTorch 算子ATen 算子:底层 C++ 实现的原子操作(如aten::add复合算子:由多个 ATen 算子组成(如Python 函数:纯 Python 实现的操作ONNX 算子ONNX Opset 11 包含的算子(部分):├─ onnx::MatMul (矩阵乘法)├─ onnx::Add (加法)├─ onnx::Mul (乘法)├─ onnx::Transpose (转置)├─ onnx::Reshape (重塑)└─ ... (约 150+ 个算子)

2025-12-25 19:41:55 63

原创 LLM解码:Query、KV Cache【Query:当前时间步输入给模型的token隐向量(在解码起点是prompt的最后一个token的隐向量,此后是上一时间步刚生成的token_id的隐向量)】

在任意一层 self-attention、任意时间步tttQuery:当前 token 的qtq_tqt​,用于“问”历史 token 哪些信息重要qtxtWQq_t=x_tW_Qqt​xt​WQ​KV Cache:到目前为止所有已出现 token 的kivi∗i≤t−1ki​vi​∗i≤t−1(或≤t\le t≤t,取决于你在计算前还是计算后更新),用于“被检索的记忆库”K∗cachek1⋯。

2025-12-24 22:31:40 22

原创 Attention Sink

大模型与人一样, 都存在幻觉与错漏,请审慎对待大模型的回答!这篇论文《When Attention Sink Emerges in Language Models: An Empirical View》[2025-03] [ICLR 2025] 通过大量的实证研究,深入探讨了自回归语言模型中普遍存在的“注意力沉降”(Attention Sink)现象,即模型倾向于将大量注意力分配给第一个token,无论其语义重要性如何。文章的核心贡献在于系统性地回答了注意力沉降是何时(when)以及为何(why)

2025-12-24 21:42:02 22

原创 TensorRT推理:能在RTX5080的服务器中将onnx转为tensorrt的engine格式后再将其放入orin中运行吗

直接在 RTX 5080 上生成 engine 再拿去 Jetson Orin 跑:基本不行,也不被官方推荐。只在服务器上训练和导出 ONNX;在 Orin 上用 TensorRT 从 ONNX 重新构建 engine,然后把构建好的 engine 缓存下来重复使用。如果你愿意,我可以帮你把当前的改成一份更适合 Orin 的版本(包含显存友好的一些设置和 INT8/FP16 配置),你直接复制过去就能用。

2025-12-10 22:05:28 62

原创 FLOPs计算详解-LLM训练-基础知识01-1:反向传播【dW=∂L/∂W:当前层的权重参数梯度;dX:传给前一层算dW的上游梯度】【在最后一层:dX=∂L/∂X=∂L/∂Y·∂Y/∂X=GWᵀ】

X当前层的输入矩阵:每一行是一条样本里的一个“位置”的向量。W当前层的权重矩阵(要学习的参数),比如注意力里的 Q/K/V/O 权重、FFN 的 W1/W2/W3 等。Y = XW当前层的输出矩阵。会被送给激活函数 / 下一层 / loss 计算等。L是一个标量,表示模型整体表现好不好(越小越好)。一般是所有样本的 loss 之和或平均,比如交叉熵。G = ∂L/∂Y上游梯度:告诉你“如果 Y 的某个元素变大一点,L 会变大还是变小,以及大小是多少”。

2025-12-07 02:45:20 57

原创 FLOPs计算详解-VLM训练01:Vision+Projector+LLM【连续编码+Full-FT:6SN_vis+6SN_pro+6(S+T)N_llm】【Lora:2/3 Full-FT】

Vision encoder 把图像变成视觉特征(S 个向量,连续或离散);Projector 把视觉特征送入 LLM 空间;LLM 对视觉 + 文本 token 序列做语言建模。连续型(vision 也训):\approx离散型 + 离线 tokenizer:去掉 6BSN_vis,那部分 FLOPs 变为 0(训练时只读 code)。对同一条图文对(同样 S,T),Vision/Projector/LLM blocks 的 FLOPs 几乎完全相同;

2025-12-06 22:20:53 50

原创 FLOPs计算详解-LLM训练03:Lora/全参训练FLOPs≈(2/3+LoRA参数量/原参数量​)【Lora显存占用=权重参数+激活】【激活=btz×seq_len×n_layer×dim】

完整的 LLaMA-2 FLOPs 计算笔记:通用符号:先把最关键的结论用一句人话说出来,然后再一点点推:你提的“能不能不算原始权重的 dX,只算 LoRA 分支的 dW/dX”理论上可以做成一种近似算法,那样 FLOPs 会更省,但那就不是标准 LoRA 的“正确反向”了。目前 peft 并没有这么做。记号和背景(先统一语言)我们讨论的是一层线性变换,放在 Transformer 里的某个位置,比如 attention 的 Q/K/V 投影或者 FFN 的 W1/W2/W3。BBB:batch size,

2025-12-06 22:10:03 38

原创 FLOPs计算详解-LLM训练-基础知识02:FLOPs、显存、上游梯度矩阵G、激活 activations、gradient checkpointing

GGG激活(activations)就是网络在前向传播过程中,每一层算出的“中间结果”。比如每层的隐藏向量、每个非线性层的输出等等。

2025-12-06 18:27:21 45

原创 FLOPs计算详解-LLM训练02:冻结参数(硬冻结、软冻结)对FLOPs的影响

在同一条 pretrain 样本(相同 token 序列长度 T)如果是“硬冻结”(在中间层detach,下半层仅做前向,不参与反向):Chalf≈23CfullChalf​≈32​Cfull​→节省约 33% 的训练算力(主要体现在底部 L/2 层没有 backward)。如果只是“软冻结”(参数不求梯度,但梯度仍穿过这些层):Chalf≈56CfullChalf​≈65​Cfull​→只节省约 17% 的算力,因为仅去掉了dW。

2025-12-06 17:28:41 33

原创 FLOPs计算详解-LLM训练01:【前向(2N)、反向(4N)、adamW(可忽略)】【全参训练:Pretrain、SFT的FLOPs的对比(FLOPs无差别,区别在于反向传播时的显存占用不同)】

好,我们来把这几轮你问过的点一次性“收束”成一份2Tdin​dout​Tdmodel​Ldff​BCfwd​≈2NDCtrain​≈6ND。

2025-12-06 13:22:21 43

原创 jetson orin nx super非桌面版 设置静态 IP 为 192.168.1.7 的方法

你这台 Jetson 的/etc里看起来netplan,但有,再结合你前面的ip a,可以确定这机子主要是靠管网的。好消息是:你现在wlP1p1s0,我们只需要把它从 “DHCP 自动获取” 改成 “手动固定 192.168.1.7”,以后重启也一直是这个 IP。下面给你一套。

2025-11-22 11:12:24 457

原创 DINOv3 元数据生成详解

元数据(Metadata)是描述数据集的预处理索引文件,用于加速训练时的数据加载。传统加载# 将整个文件加载到内存data = np.load('entries-TRAIN.npy') # 占用 ~50 MB 内存内存映射# 不占用内存,按需加载data = np.load('entries-TRAIN.npy', mmap_mode='r') # 占用 ~0 MB 内存。

2025-11-22 10:44:08 868

特殊字符 VLA扩散模型完整实现 - Complete VLA Diffusion Model Implementation

vla-config.py

2025-10-02

英文单词拼写混淆集:spell-errors.txt

英文单词拼写混淆集:spell-errors.txt

2021-04-05

《Approaching (Almost) Any Machine Learning Problem》

《Approaching (Almost) Any Machine Learning Problem》

2023-09-13

中文小说短句序列文本复述数据集

中文小说短句序列文本复述数据集

2023-07-29

时间序列预测-第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

2023-02-26

stop-words.txt

stop_words.txt

2022-11-17

clustering-test-data

文本聚类测试数据

2022-11-17

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

带有词频的词典库:vocab.txt

带有词频的词典库:vocab.txt

2021-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除