谷歌AI展示了一款能够实时生成游戏画面的框架,这一技术引起了广泛的关注。尤其当这一技术与之前出现的Sora模型进行对比时,我们可以看到一些有趣的发展趋势以及技术挑战。
GameNGen:一个神经世界模型
GameNGen是一个真正的神经世界模型,它能够接收过去的帧(状态)和用户输入(如键盘或鼠标的动作),并生成下一帧的画面。对于经典游戏《毁灭战士》(DOOM)来说,这个模型展现出了令人印象深刻的画质。然而,这种技术背后也有其局限性。
重要注意事项
-
过度拟合问题
- GameNGen是在《毁灭战士》这单一游戏上通过训练9亿帧而构建起来的。这样的大量数据意味着模型可能已经记住了游戏在各种场景下的表现细节。虽然《毁灭战士》的内容相对有限,但这种程度的数据需求在其他游戏中可能难以复制。
-
缺乏泛化能力
- 尽管GameNGen能够重现游戏画面,但它更像是一个高级版本的NeRF(神经辐射场),而非视频生成模型。这意味着它不能创造全新的游戏场景或互动机制,限制了其在创新方面的潜力。
-
数据集的挑战
- 该模型的成功很大程度上依赖于收集到的大量