世界模型
文章平均质量分 89
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
告别时空崩坏,生成式游戏迎来“稳态”时刻!南大等StableWorld:打造无限续航虚拟世界
解决的问题当前交互式视频生成模型(如世界模型)在生成长时间序列时,存在严重的稳定性不足与时间不一致性问题,表现为空间漂移和场景崩塌。即使在没有交互或静态场景下,模型也会因误差累积导致生成帧逐渐偏离初始状态,破坏时间一致性。提出的方案提出框架,其核心是动态帧淘汰机制。在滑动窗口生成过程中,动态评估并保留几何一致性的关键帧(尤其是早期较“干净”的帧),淘汰退化或冗余的中间帧,从而从源头抑制误差累积。应用的技术使用算法计算视角重叠度,以评估帧间几何一致性。采用KV-cache 窗口扩展。原创 2026-01-26 23:19:41 · 905 阅读 · 0 评论 -
超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,单卡12 FPS 实时交互渲染
Yume1.5:交互式世界生成模型的突破性进展 摘要: 本研究提出Yume1.5,一个创新的交互式世界生成模型,通过三大核心技术突破解决了动态世界生成的挑战:1)联合时空通道建模(TSCM)方法实现高效长视频生成,保持时间连贯性;2)结合Self-Forcing与TSCM的加速框架,显著提升推理速度;3)创新的双流文本编码方案,实现精细的文本控制。实验表明,模型在Yume-Bench基准测试中指令跟随能力达0.836,在A100 GPU上实现12FPS的540p分辨率生成,且长序列生成质量稳定。原创 2026-01-05 13:29:36 · 1035 阅读 · 0 评论 -
《黑客帝国》雏形已现?腾讯造出“可对话游戏宇宙”,实时生成、任意交互,世界为你改变!
Hunyuan-GameCraft-2提出了一种指令驱动的交互式游戏世界模型,通过集成文本、键盘和鼠标信号实现语义化交互控制。该模型采用14B参数的MoE架构,结合自回归蒸馏与随机化长视频微调技术,支持高效稳定的长时序视频生成。创新性地定义了交互式视频数据标准,并开发了自动化数据构建管道。实验表明,模型在InterBench基准上取得SOTA性能,能以16FPS实时生成高质量交互视频,显著提升了动作有效性(触发率0.96+)、因果连贯性和物理合理性。原创 2025-12-02 13:34:31 · 664 阅读 · 0 评论 -
打破次元壁!港大和达摩院联合发布头号玩家PlayerOne模型:世界首款“自我中心”模拟器!
香港大学与阿里达摩院联合推出PlayerOne模型,实现真实世界的第一人称动态模拟。该系统通过外置摄像头捕捉用户动作(如手势、头部转动),将其无缝融入由单张图像构建的虚拟场景,支持无限制交互与AAA级画质体验。关键技术包括:部件解耦的动作编码(区分头/手/躯干)、4D场景点云重建确保一致性,以及两阶段训练策略解决数据稀缺问题。相比现有方案,PlayerOne在动作对齐和场景交互方面表现更优,为沉浸式社交、虚拟探索等应用开辟新可能。原创 2025-06-17 00:11:07 · 1311 阅读 · 0 评论
分享