点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
论文地址:https://arxiv.org/pdf/2402.15391.pdf
项目主页:https://sites.google.com/view/genie-2024/home?pli=1
计算机视觉研究院专栏
Column of Computer Vision Institute
一键生成可玩游戏世界。
Genie 能做到的不止如此,它还可以应用到草图等人类设计相关的创作领域。
或者,应用在真实世界的图像中:
技术揭秘:论文《Genie: Generative Interactive Environments》已公布
谷歌 DeepMind 已经放出了 Genie 论文。
论文地址:https://arxiv.org/pdf/2402.15391.pdf
项目主页:https://sites.google.com/view/genie-2024/home?pli=1
方法介绍
动态模型:是一个仅解码器的 MaskGIT transformer(图 7)。
Genie 的推理过程如下所示
实验结果
智能体训练。或许有一天,Genie 可以被用作训练多任务智能体的基础世界模型。在图 14 中,作者展示了该模型已经可以用于在给定起始帧的全新 RL 环境中生成不同的轨迹。
作者在程序生成的 2D 平台游戏环境 CoinRun 中进行评估,并与能够访问专家操作作为上限的预言机行为克隆 (BC) 模型进行比较。
消融研究。选择在设计潜在动作模型时,作者仔细考虑了要使用的输入类型。虽然最终选择使用原始图像(像素),但作者在设计 Genie 时针对使用标记化图像的替代方案(在图 5 中用 z 替换 x)来评估这一选择。这种替代方法称为「token 输入」模型(参见表 2)。
分词器架构消融。作者比较了三种分词器选择的性能,包括 1)(仅空间)ViT、2)(时空)ST-ViViT 和 3)(时空)CViViT(表 3)。
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗