- 博客(9)
- 资源 (47)
- 收藏
- 关注
原创 WAM世界动作模型:具身智能的下一个前沿
视觉-语言-动作(VLA)模型与世界动作模型(WAMs)的融合正在推动机器人学习从反应式控制向预见性推理转变。VLA模型虽在语义泛化方面表现优异,但其反应式特性限制了长程任务的执行能力。WAMs通过联合建模未来状态与动作的联合分布,为机器人提供预测性推理能力。本文系统梳理了WAMs的架构分类(级联式与联合式)、技术路线、数据生态与评估体系,揭示了这一快速演进领域的发展趋势。级联式WAM保持预测与执行的模块化,而联合式WAM通过共享表示空间实现端到端学习。
2026-05-13 23:55:21
382
原创 面向具身智能与机器人仿真的三维生成技术:一项综述解读
具身智能系统对三维内容的需求正从"视觉逼真"转向"仿真就绪"。香港科技大学领衔的研究团队系统梳理了面向具身智能与机器人仿真的三维生成技术,提出以"数据生成器—仿真环境—Sim2Real桥接"为核心的三角色分类体系,涵盖从仿真就绪资产生产、可交互世界构建到虚实迁移闭环的完整技术链路。
2026-05-10 23:11:27
368
原创 从看见到了解世界:视觉世界模型研究全景解析
视觉世界模型代表了人工智能领域一项基础而雄心勃勃的追求:让机器通过观察视觉世界来理解其运行规律,并基于这种理解进行可靠的预测和交互。《From Seeing to Knowing the World: A Survey of Vision World Models》通过提出以视觉为中心的统一框架,系统性地梳理了这一快速发展的领域,将纷繁复杂的研究工作组织为清晰的结构,并为未来的研究指明了方向。
2026-05-10 11:36:22
369
原创 世界模型WM与具身世界动作模型WAM:从基础仿真器到具身智能的统一技术图景
本文综述了具身世界动作模型(WAM)的最新进展,系统梳理了六大技术支柱:基础世界模型、视觉-语言-动作(VLA)模型、具身WAM、自动驾驶世界模型、效率与评测、数据集与生态。研究显示,世界模型正从被动视频预测器演进为可交互的物理仿真器,而VLA模型则建立了连接语义意图与运动控制的桥梁。二者的融合催生了WAM这一新型架构,使智能体能够通过"想象"未来状态来规划动作。文章重点分析了通用交互式仿真器、记忆增强、几何感知等关键技术突破,以及开源生态的发展趋势,为具身智能研究提供了系统性参考框架。
2026-05-09 00:03:01
476
原创 VLA视觉-语言-动作模型数据:机器人数据基础设施的全景解析
本文系统梳理了视觉-语言-动作(VLA)模型的数据基础设施,重点分析数据集、基准测试和数据引擎三大支柱。研究表明,VLA发展面临fidelity-cost权衡困境:真实世界数据集保真度高但成本昂贵,合成数据可扩展性强却保真度不足。当前主流采用"合成预训练+真实微调"范式,而未来突破将更依赖高质量数据引擎与结构化评估协议的协同设计。基准测试评估显示,多场景任务中的组合推理和环境变化仍是主要挑战。数据引擎通过视频转换、硬件辅助和生成式方法提升数据规模与质量,为VLA发展提供关键支撑。
2026-05-02 00:47:57
419
原创 盘古开天,世界新生:深度解读华为云CEO张平安总HDC 2025 Keynote盘古世界模型
华为云在HDC2025大会上发布盘古大模型5.5,其中盘古世界模型实现重大突破——成为业界首个支持可交互4D空间生成的大模型。该技术通过精准时空对齐和物理一致性建模,可生成符合自然规律的数字物理空间,为智能驾驶、具身智能机器人等提供训练环境。典型应用包括:基于火星照片构建可交互的火星数字空间训练火星车,以及为自动驾驶生成像素级对齐的多模态训练数据。盘古世界模型标志着AI从内容生成迈向世界构建的新阶段,有望解决机器人训练数据稀缺问题,成为AI发展的新型基础设施。
2026-05-01 10:22:44
436
原创 华为开发者大会2025HDC|“盘古大模型关键技术解读”直播 (Part.2-盘古世界模型:GenJi & 金鑫博士)
盘古世界模型深度解读:当STCG遇见4D空间,华为如何用"物理引擎+数据驱动"重构自动驾驶仿真范式
2026-04-27 16:29:42
440
原创 华为HDC大会2024张平安总keynote盘古多模态生成大模型:STCG技术如何重塑自动驾驶数据引擎
盘古5.0的STCG技术,正在从三个维度重塑自动驾驶开发范式:表格维度传统模式盘古STCG模式数据成本百万公里路测,人力物力高昂云端大规模并行生成,边际成本趋近于零场景覆盖依赖自然采集,长尾场景稀疏按需生成极端场景,实现"场景自由"标注精度人工标注存在误差与成本瓶颈生成过程自带完美标注(3D框、轨迹、语义分割)更重要的是,由于STCG生成的视频在几何一致性、物理合理性与视觉逼真度上均达到工业标准,这些合成数据可直接注入自动驾驶的训练管线,与真实数据混合训练,或用于特定场景的模型微调与压力测试。
2026-04-26 21:51:09
446
原创 金鑫博士的个人主页正式上线啦|技术博客 & 个人官网
金鑫博士 华为云视频生成大模型、世界模型 团队主管中国科学院计算技术研究所 博士 | 华为云盘古多模态大模型首席架构师 · 华为技术专家A目前专注于大模型、人工智能与云计算领域,负责华为盘古视频生成基础模型、自动驾驶世界模型、具身世界模型、3D大模型、AR/VR、视频分析、OCR、机器学习平台、机器翻译等多个系统和服务。担任华为集团级大模型项目"4野15纵"视频生成技术负责人、华为集团级天水计划-AIGC视频创意生成项目经理。技术成果于2023、2024、2025连续三年由华为云CEO在HDC/
2026-04-25 14:35:49
847
条件随机场教程
2011-10-08
Markov chains, Gibbs Fields Monte Carlo Simulation, and Queues.pdf
2012-04-27
BREW高阶技术培训资料及code
2010-06-13
BREW 开发者教程(学习指南)
2010-06-13
BREW初级技术培训资料及code
2010-06-13
LeCun 2016 深度学习PPT
2016-03-27
MIT Optimization for Machine Learning.2012.
2012-09-14
2018-AI标准会议
2018-01-18
2016 ScaledML会议演讲合辑:谷歌Jeff Dean讲解TensorFlow,微软陆奇解读FPGA(附PPT)
2016-08-06
机器翻译PPT-nueral machine translation
2016-08-08
快学Scala(中文完整版)带目录
2015-08-02
Bengio大神的《Deep Learning》全书
2016-04-07
Learning to Rank for Information Retrieval and Natural Language Processing
2016-10-21
编程珠玑第二版
2013-05-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅