- 博客(33)
- 资源 (47)
- 收藏
- 关注
原创 字节Lance:轻量级原生统一多模态模型,以多任务协同实现理解与生成的新范式
字节跳动提出轻量级多模态统一模型Lance,仅3B激活参数即实现图像/视频理解、生成与编辑全任务覆盖。该模型采用双专家混合架构和模态感知位置编码技术,通过四阶段渐进训练在128张GPU上完成优化。实验显示,Lance在图像生成(GenEval)、视频生成(VBench)等基准测试中性能领先开源模型,部分指标媲美商用大模型。其创新设计有效解决了多模态任务中理解与生成的表征冲突问题,为轻量级统一多模态建模提供了新思路。
2026-06-09 22:19:48
102
原创 超越VLA与世界模型:构建下一代物理智能系统的四大支柱
机器人技术正经历从单一任务编程向通用物理智能的范式转变,但面临数据规模与质量的关键瓶颈。最新研究指出,单纯扩大模型规模与收集机器人演示数据无法突破核心限制,提出构建下一代系统的四大支柱: 物理数据引擎:通过具身自动标注技术,从异构物理经验中提取结构化学习信号,将人类行为转化为机器人可理解的物理标签体系 任务保持重定向:建立跨具身形态的技能迁移机制,弥合人类演示与机器人执行之间的"具身鸿沟" 物理基础世界模型:开发保留关键物理变量(3D几何、接触力学等)的仿真系统,超越视觉逼真度的表面模拟 自我改进部署循环:
2026-06-09 20:16:20
238
原创 WorldArena 2.0:迈向多模态、交互式与跨平台的世界模型评测新范式
WorldArena 2.0评测基准突破具身智能世界模型的三重边界 清华联合多所顶尖高校提出的WorldArena 2.0评测框架,针对当前世界模型评估的三大局限展开系统性创新: 模态扩展:构建视触觉融合评测体系,通过触觉VAE模块和双流预测架构,将纯视觉评估扩展到接触丰富的操作任务(如HDMI插入、瓶子抓取) 功能升级:从静态离线评估转向交互式强化学习环境,验证世界模型支持策略持续优化的能力 平台跨越:突破仿真限制,在真实机器人平台上验证模型性能 该基准通过标准化评测流程和跨模态协调机制,为具身智能的世界
2026-06-08 22:36:13
357
原创 CVPR26最佳学生论文O-Voxel:面向高质量3D生成的原生紧凑结构化潜空间
摘要: 本文提出一种创新的3D生成建模方法——O-Voxel(Omni-Voxel),通过稀疏体素结构联合编码几何与材质信息,支持任意拓扑的鲁棒建模。核心贡献包括:1)灵活对偶网格设计,实现高效网格-体素双向转换;2)体积表面属性建模,兼容PBR材质;3)稀疏压缩VAE(SC-VAE)实现16倍空间压缩率,结合大规模流匹配模型,在秒级推理下生成高保真3D资产。实验表明,该方法在形状重建(MD、CD等指标)和材质保真度(PSNR 38.89dB)上均优于现有基线,且Token效率更高,为高质量3D内容生成提供
2026-06-07 21:49:57
371
原创 JoyAI-Echo:让五分钟叙事视频拥有可延续的角色记忆
摘要: 论文《JoyAI-Echo: Pushing the Frontier of Long Audio-Visual Generation》提出了一套系统工程框架,解决长时长、可交互、高清音视频生成的挑战。其核心创新包括: 跨模态音视频记忆库:通过结构化槽位绑定角色外观与声纹,支持多镜头叙事一致性; 记忆式后训练管线:结合SFT、RLHF和蒸馏技术,优化生成质量、音画同步与推理效率; Director Agent:将用户意图转化为可执行的镜头级条件,支持动态修改; 实时超分辨率模块:从720p生成结果提
2026-06-07 18:55:08
400
原创 PhysX-Omni:面向刚体、形变体与铰接体的统一仿真就绪 3D 生成
从“看起来像”走向“能够被物理引擎使用”的生成式三维资产论文:PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects来源:arXiv:2605.21572v1三维生成正在从视觉资产生产,继续走向机器人、具身智能、仿真训练与数字内容创作中的物理交互场景。
2026-06-07 12:01:23
323
原创 CVPR26最佳论文提名:NitroGen,面向通用游戏智能体的 视觉-动作基础模型
本文介绍 NitroGen,一个面向通用游戏智能体的视觉-动作基础模型。该模型基于超过40,000小时、涵盖1,000余款游戏的互联网游戏视频进行训练,通过自动提取玩家操作构建大规模视频-动作数据集。NitroGen 采用基于流匹配(Flow Matching)的统一视觉-动作架构,在3D动作、2D平台跳跃、程序生成世界探索等多样化场景中展现出强劲能力。实验表明,在未见过的游戏中进行微调时,NitroGen 预训练权重可将任务成功率最高提升52%。
2026-06-06 14:17:14
350
原创 CVPR26最佳论文提名:SAM3D,单图生成可组合3D场景的基础模型
Meta提出SAM 3D:单图重建复杂场景的视觉基础模型新范式 Meta超级智能实验室推出SAM 3D,通过多阶段训练策略与模型在环(MITL)数据引擎,实现从单张自然图像联合预测物体的几何、纹理与三维布局。该模型采用两阶段latent flow matching架构:几何模型预测粗略形状与空间位姿,纹理精修模型补充细节。为解决真实3D标注数据稀缺问题,研究团队构建了包含合成预训练(Iso-3DO)、半合成中间训练(RP-3DO)和真实数据微调(MITL-3DO)的渐进式训练流程,并引入人类偏好优化(DPO
2026-06-06 12:45:44
370
原创 CVPR26 Best Papar:D4RT,以查询为钥,开启动态场景高效重建新范式
本文提出D4RT方法,通过统一查询机制实现高效的动态四维场景重建与跟踪。该方法采用编码器-解码器架构,首先通过全局编码器生成场景表示,再利用轻量级解码器按需查询任意时空点的三维位置。D4RT仅需单一接口即可支持点轨迹跟踪、点云重建、深度图恢复和相机参数估计等多种任务,在功能完整性、计算效率和架构简洁性方面优于现有方法。实验表明,该方法在动态场景理解任务上展现出卓越性能。
2026-06-06 11:44:36
450
原创 世界模型:架构、方法、推理与应用全景综述
从认知科学到通用人工智能的模拟器之路基于《World Models: A Comprehensive Survey of Architectures, Methodologies, Reasoning Paradigms, and Applications》整理**摘要:**世界模型,即学习环境结构及动力学的内部模拟器,已成为追求通用人工智能的核心范式。本文基于Zidan等人于2026年发表的综述论文,系统梳理了世界模型在架构设计、方法论家族、推理策略和应用领域四个维度的最新进展。
2026-06-05 22:48:58
395
原创 WALL-WM:“事件级预测”世界动作模型
事件驱动的视觉-语言-动作预训练新范式 WALL-WM提出了一种突破性的具身智能训练方法,通过将固定长度动作块替换为语义连贯的动作事件(如"抓取-放置"),解决了语言、视觉和动作在粒度上的结构性错配问题。该架构包含多视角视频生成器和动作DiT,采用几何保持、先验保持和可执行因果性设计原则,通过事件中心窗口实现跨模态对齐。创新性的Staircase隐式思维链机制提升了长程推理效率,同时四层层次化标注的数据引擎支撑了规模化训练。实验表明,该方法在机器人操作和视频生成任务上均取得领先性能,为具身基础模型的发展提供
2026-06-04 21:57:53
302
原创 李飞飞世界模型的功能分类法:当渲染、模拟与规划走向融合
李飞飞团队提出世界模型三分法,为空间智能发展奠定理论基础。针对当前"世界模型"概念泛化的问题,该团队基于强化学习POMDP闭环理论,将世界模型划分为三类功能模块:渲染器(追求视觉保真度)、模拟器(确保结构准确性)和规划器(实现行动有效性)。其中,模拟器作为连接渲染与规划的关键枢纽,虽受关注较少但价值重大,被认为是推动统一世界基础模型发展的核心。这一分类框架不仅厘清了概念混淆,更为构建能真实理解物理世界的空间智能系统指明了方向,对机器人、自动驾驶等领域具有重要指导意义。
2026-06-04 19:16:47
330
原创 Gamma-World:面向多智能体交互的生成式世界模型新范式
NVIDIA联合多所高校提出Gamma-World框架,突破多智能体世界建模的关键技术挑战。该框架通过两项创新:1)Simplex Rotary Agent Encoding实现无参数化、排列对称的智能体身份编码;2)Sparse Hub Attention将跨智能体交互计算复杂度从二次降至线性。实验证明,Gamma-World可同时支持虚拟游戏(如Minecraft多玩家场景)和真实机器人协作场景,实现24FPS的实时推理。该研究为多玩家游戏生成、机器人协作等应用提供了可扩展的解决方案,相关成果已发表于a
2026-06-03 22:46:23
319
原创 WorldVLN:面向空中视觉语言导航的自回归世界行动模型
WorldVLN:面向空中视觉语言导航的自回归世界行动模型 摘要:清华大学等机构提出的WorldVLN首次将视频生成的潜在自回归Transformer重构为世界行动模型(WAM),用于解决空中视觉语言导航(Aerial VLN)任务。该方法通过两阶段训练框架:1)监督学习实现指令条件导航动态建模;2)创新性Action-aware GRPO强化学习优化自回归决策。实验表明,WorldVLN在UAV-Flow和IndoorUAV-VLA基准上超越现有视觉语言行动模型12%以上的成功率,并实现真实无人机零样本迁
2026-06-03 00:11:16
392
原创 EgoLive:面向机器人操作学习的超大规模第一视角数据集
EgoLive数据集:真实场景人机交互数据新标杆 京东未来研究院提出的EgoLive数据集突破了机器人学习领域的数据瓶颈,成为当前最大规模的开源第一视角交互数据集。该数据集包含1,680小时立体视频(60FPS/2160P)、65,866个操作片段和346种真实任务,覆盖家庭服务、零售等多样化场景。 关键技术突破: 1️⃣ 专用采集设备:轻量化头戴设备JoyEgoCam支持130°超宽视场角,实现无干扰自然交互捕捉 2️⃣ 自动化标注管线:集成运动追踪(毫米级手部重建)、语义理解(多模态大模型标注)和三维场
2026-06-02 18:45:32
412
原创 NVIDIA Cosmos 3:全模态世界基础模型开启物理AI新纪元,8项物理AI基准测试开放模型排名第一
Cosmos 3系列全模态世界模型通过创新的Mixture-of-Transformers双塔架构,首次实现了语言、图像、视频、音频和动作序列的统一处理。该模型采用共享骨干网络中的分离参数设计,通过联合注意力机制实现理解与生成的协同工作。统一动作表征体系覆盖了从机器人到自动驾驶的多样化场景,而多模态位置编码确保了跨模态时间一致性。NVIDIA提供了40亿到640亿参数的三种模型变体,在多项任务中达到开源最优性能,部分指标超越商业闭源模型。该模型的全面开源将加速物理AI领域的发展,推动具身智能在真实世界中的应
2026-06-02 18:34:36
954
原创 阿里Qwen-VLA:统一视觉-语言-动作建模,迈向通用具身智能
摘要: Qwen Team提出统一视觉-语言-动作基础模型Qwen-VLA,突破传统具身智能研究中任务、环境与机器人本体割裂的局限。该模型采用"认知主干+运动专家"双模块架构,通过四阶段渐进训练策略(文本到动作预训练、持续预训练、监督微调、强化学习),在涵盖操作、导航、轨迹预测等异质任务的大规模数据集上实现统一建模。核心创新包括:1)将不同具身任务统一为条件预测框架;2)本体感知提示条件机制实现跨机器人平台适配;3)动作与轨迹的统一表示方法。实验表明,模型在操作、导航等多个领域展现出跨任务一致性与分布外泛化
2026-06-01 23:08:52
423
原创 Galaxea G0.5横扫了7大具身评测:统一自回归架构重塑视觉语言动作模型
**摘要:**Galaxea G0.5模型突破了当前视觉语言动作(VLA)模型的架构局限,通过创新的跨具身动作分词器、原生思维链流和视觉记忆模块三大核心技术,实现了推理与动作生成的统一自回归框架。该模型在七大评测场景中表现卓越,包括真实世界双臂操作(76.7%成功率)、DROID零样本部署(82.5%成功率)等,全面超越现有最优方法。G0.5采用单一Transformer解码器处理多模态输入与动作输出,保留了预训练视觉语言模型的完整推理能力,为通用机器人控制提供了"提示即控制"的新范式,显著提升了跨平台适应
2026-06-01 22:47:09
415
原创 WorldArena竞赛冠军GE-Sim 2.0:面向机器人操作的全闭环视频世界模拟器
GE-Sim 2.0是全球首个实现闭环交互的机器人神经仿真平台,通过动作条件视频生成技术构建高保真虚拟环境。该系统创新性融合三大模块:基于扩散模型的视觉专家生成多视角视频,本体感知状态专家解码关节运动信息,视觉语言裁判提供自动化任务评估。采用光线图与姿态图编码动作信号,结合记忆帧增强与步数蒸馏技术,在仅20亿参数规模下实现伪实时生成,登顶WorldArena评测榜首。该平台为复杂操作任务的策略训练与评估提供了可扩展的仿真解决方案,显著降低真实机器人测试成本。
2026-05-31 20:58:14
324
原创 最大预训练具身世界模型τ0-WM:面向机器人操作任务的统一视频-动作世界模型
上海人工智能实验室与AGIBOT Finch团队提出的τ0-World Model(τ0-WM)创新性地整合了视频预测、动作生成与评估功能,通过共享视频扩散骨干网络实现了多源异构数据的联合训练。该模型在27,300小时的机器人遥操作、UMI式演示和人体交互视频数据上进行训练,采用统一监督掩码机制处理不同数据源的差异。τ0-WM包含视频动作模型(VAM)和动作条件化视频模拟器(ACVS)双分支,分别负责动作生成和未来预测评估。测试时通过重去噪一致性评分和低质量动作修正策略优化动作选择,在长程精细操作任务中展现
2026-05-31 20:28:21
352
原创 Genesis World 1.0:机器人仿真进入可信评估新纪元
Genesis World 1.0仿真平台通过重构仿真技术在机器人基础模型开发中的角色,实现了从"数据生成工具"到"评估引擎"的范式转变。该平台整合Nyx实时路径追踪渲染器、统一多物理引擎和跨平台编译器三大组件,将模型评估时间从真实世界的200小时压缩至仿真环境的30分钟,速度提升两个数量级。关键突破在于实现了仿真评估与真实硬件测试89%的相关性,较次优方案缩小45%的现实差距。通过解耦训练与评估流程,确保性能提升源于模型真实能力而非仿真器过拟合。这种基础设施级创新使机器人开发从受限于物理时间的"挂钟问题"
2026-05-29 22:32:51
365
原创 自变量Wall-OSS-0.5:面向物理部署的预训练VLA视觉-语言-动作模型
X Square Robot团队开源40亿参数VLA模型Wall-OSS-0.5,首次验证了预训练本身可直接产生可执行的机器人行为。该模型通过"梯度桥接协同训练"方法联合优化视觉-语言-动作三大目标,在覆盖20余种具身形态的百万级轨迹数据上预训练。实验显示,未经微调的预训练模型在17项真实机器人任务中平均任务进展达51.1%,微调后提升至60.5%。创新性地采用视觉对齐RVQ动作分词器和Mixture-of-Transformers架构,实现了预训练策略的直接部署能力,为具身智能基础模型发展提供了新范式。
2026-05-29 22:18:46
364
原创 WorldArena榜单第一名Pelican-Unify 1.0:迈向具身智能统一范式的新里程碑
北京人形机器人创新中心发布全球首个统一具身智能模型Pelican-Unify 1.0,实现了理解、推理、想象与行动的闭环融合。该模型突破传统模块化架构局限,通过共享语义空间、语言锚定思维链和联合去噪生成三大创新设计,将多模态认知统一整合。测试显示,该模型在视觉理解、运动控制和世界预测三项专业能力上均表现优异,其中多模态基准测试得分64.7分,显著超越同类模型。这一突破为具身智能发展提供了新范式,使机器人能更自然地理解和交互物理世界。
2026-05-22 22:31:50
470
原创 视频生成MOE Mamoda2.5:基于DiT-MoE的统一多模态理解与生成框架技术解析
字节跳动团队提出Mamoda2.5模型,通过稀疏激活专家混合架构(DiT-MoE)实现视频理解与生成统一建模。该模型采用128专家Top-8路由策略,总参数量250亿但单次仅激活30亿,显著提升效率。创新点包括:1)细粒度MoE设计结合共享专家机制;2)三阶段神经元采样初始化策略加速收敛;3)统一条件生成框架支持多任务;4)高质量视频编辑数据合成管线;5)联合蒸馏与强化学习训练策略。实验表明,该架构在保持生成质量的同时,计算效率提升5倍,为视频生成领域提供了新范式。
2026-05-22 22:13:18
376
原创 WAM世界动作模型:具身智能的下一个前沿
视觉-语言-动作(VLA)模型与世界动作模型(WAMs)的融合正在推动机器人学习从反应式控制向预见性推理转变。VLA模型虽在语义泛化方面表现优异,但其反应式特性限制了长程任务的执行能力。WAMs通过联合建模未来状态与动作的联合分布,为机器人提供预测性推理能力。本文系统梳理了WAMs的架构分类(级联式与联合式)、技术路线、数据生态与评估体系,揭示了这一快速演进领域的发展趋势。级联式WAM保持预测与执行的模块化,而联合式WAM通过共享表示空间实现端到端学习。
2026-05-13 23:55:21
437
原创 面向具身智能与机器人仿真的三维生成技术:一项综述解读
具身智能系统对三维内容的需求正从"视觉逼真"转向"仿真就绪"。香港科技大学领衔的研究团队系统梳理了面向具身智能与机器人仿真的三维生成技术,提出以"数据生成器—仿真环境—Sim2Real桥接"为核心的三角色分类体系,涵盖从仿真就绪资产生产、可交互世界构建到虚实迁移闭环的完整技术链路。
2026-05-10 23:11:27
402
原创 从看见到了解世界:视觉世界模型研究全景解析
视觉世界模型代表了人工智能领域一项基础而雄心勃勃的追求:让机器通过观察视觉世界来理解其运行规律,并基于这种理解进行可靠的预测和交互。《From Seeing to Knowing the World: A Survey of Vision World Models》通过提出以视觉为中心的统一框架,系统性地梳理了这一快速发展的领域,将纷繁复杂的研究工作组织为清晰的结构,并为未来的研究指明了方向。
2026-05-10 11:36:22
384
原创 世界模型WM与具身世界动作模型WAM:从基础仿真器到具身智能的统一技术图景
本文综述了具身世界动作模型(WAM)的最新进展,系统梳理了六大技术支柱:基础世界模型、视觉-语言-动作(VLA)模型、具身WAM、自动驾驶世界模型、效率与评测、数据集与生态。研究显示,世界模型正从被动视频预测器演进为可交互的物理仿真器,而VLA模型则建立了连接语义意图与运动控制的桥梁。二者的融合催生了WAM这一新型架构,使智能体能够通过"想象"未来状态来规划动作。文章重点分析了通用交互式仿真器、记忆增强、几何感知等关键技术突破,以及开源生态的发展趋势,为具身智能研究提供了系统性参考框架。
2026-05-09 00:03:01
951
原创 VLA视觉-语言-动作模型数据:机器人数据基础设施的全景解析
本文系统梳理了视觉-语言-动作(VLA)模型的数据基础设施,重点分析数据集、基准测试和数据引擎三大支柱。研究表明,VLA发展面临fidelity-cost权衡困境:真实世界数据集保真度高但成本昂贵,合成数据可扩展性强却保真度不足。当前主流采用"合成预训练+真实微调"范式,而未来突破将更依赖高质量数据引擎与结构化评估协议的协同设计。基准测试评估显示,多场景任务中的组合推理和环境变化仍是主要挑战。数据引擎通过视频转换、硬件辅助和生成式方法提升数据规模与质量,为VLA发展提供关键支撑。
2026-05-02 00:47:57
448
原创 盘古开天,世界新生:深度解读华为云CEO张平安总HDC 2025 Keynote盘古世界模型
华为云在HDC2025大会上发布盘古大模型5.5,其中盘古世界模型实现重大突破——成为业界首个支持可交互4D空间生成的大模型。该技术通过精准时空对齐和物理一致性建模,可生成符合自然规律的数字物理空间,为智能驾驶、具身智能机器人等提供训练环境。典型应用包括:基于火星照片构建可交互的火星数字空间训练火星车,以及为自动驾驶生成像素级对齐的多模态训练数据。盘古世界模型标志着AI从内容生成迈向世界构建的新阶段,有望解决机器人训练数据稀缺问题,成为AI发展的新型基础设施。
2026-05-01 10:22:44
478
原创 华为开发者大会2025HDC|“盘古大模型关键技术解读”直播 (Part.2-盘古世界模型:GenJi & 金鑫博士)
盘古世界模型深度解读:当STCG遇见4D空间,华为如何用"物理引擎+数据驱动"重构自动驾驶仿真范式
2026-04-27 16:29:42
469
原创 华为HDC大会2024张平安总keynote盘古多模态生成大模型:STCG技术如何重塑自动驾驶数据引擎
盘古5.0的STCG技术,正在从三个维度重塑自动驾驶开发范式:表格维度传统模式盘古STCG模式数据成本百万公里路测,人力物力高昂云端大规模并行生成,边际成本趋近于零场景覆盖依赖自然采集,长尾场景稀疏按需生成极端场景,实现"场景自由"标注精度人工标注存在误差与成本瓶颈生成过程自带完美标注(3D框、轨迹、语义分割)更重要的是,由于STCG生成的视频在几何一致性、物理合理性与视觉逼真度上均达到工业标准,这些合成数据可直接注入自动驾驶的训练管线,与真实数据混合训练,或用于特定场景的模型微调与压力测试。
2026-04-26 21:51:09
496
原创 金鑫博士的个人主页正式上线啦|技术博客 & 个人官网
金鑫博士 华为云视频生成大模型、世界模型 团队主管中国科学院计算技术研究所 博士 | 华为云盘古多模态大模型首席架构师 · 华为技术专家A目前专注于大模型、人工智能与云计算领域,负责华为盘古视频生成基础模型、自动驾驶世界模型、具身世界模型、3D大模型、AR/VR、视频分析、OCR、机器学习平台、机器翻译等多个系统和服务。担任华为集团级大模型项目"4野15纵"视频生成技术负责人、华为集团级天水计划-AIGC视频创意生成项目经理。技术成果于2023、2024、2025连续三年由华为云CEO在HDC/
2026-04-25 14:35:49
877
条件随机场教程
2011-10-08
Markov chains, Gibbs Fields Monte Carlo Simulation, and Queues.pdf
2012-04-27
BREW高阶技术培训资料及code
2010-06-13
BREW 开发者教程(学习指南)
2010-06-13
BREW初级技术培训资料及code
2010-06-13
LeCun 2016 深度学习PPT
2016-03-27
MIT Optimization for Machine Learning.2012.
2012-09-14
2018-AI标准会议
2018-01-18
2016 ScaledML会议演讲合辑:谷歌Jeff Dean讲解TensorFlow,微软陆奇解读FPGA(附PPT)
2016-08-06
机器翻译PPT-nueral machine translation
2016-08-08
快学Scala(中文完整版)带目录
2015-08-02
Bengio大神的《Deep Learning》全书
2016-04-07
Learning to Rank for Information Retrieval and Natural Language Processing
2016-10-21
编程珠玑第二版
2013-05-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅