刚刚，谷歌发布基础世界模型：11B参数，能生成可交互虚拟世界

最新推荐文章于 2024-07-26 20:09:11 发布

计算机视觉研究院

最新推荐文章于 2024-07-26 20:09:11 发布

阅读量117

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247533566&idx=3&sn=cb3ded450489a8c80692a50bb74b3149&chksm=fa8e8545d5480489f4b4db31bc4a4872bb2445cac476562c5078926a51be7d989795647cc44c&scene=126&sessionid=0

版权

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2402.15391.pdf
项目主页：https://sites.google.com/view/genie-2024/home?pli=1

计算机视觉研究院专栏

Column of Computer Vision Institute

一键生成可玩游戏世界。

Genie 能做到的不止如此，它还可以应用到草图等人类设计相关的创作领域。

或者，应用在真实世界的图像中：

技术揭秘：论文《Genie: Generative Interactive Environments》已公布

谷歌 DeepMind 已经放出了 Genie 论文。

论文地址：https://arxiv.org/pdf/2402.15391.pdf
项目主页：https://sites.google.com/view/genie-2024/home?pli=1

方法介绍

动态模型：是一个仅解码器的 MaskGIT transformer（图 7）。

Genie 的推理过程如下所示

实验结果

智能体训练。或许有一天，Genie 可以被用作训练多任务智能体的基础世界模型。在图 14 中，作者展示了该模型已经可以用于在给定起始帧的全新 RL 环境中生成不同的轨迹。

作者在程序生成的 2D 平台游戏环境 CoinRun 中进行评估，并与能够访问专家操作作为上限的预言机行为克隆 (BC) 模型进行比较。

消融研究。选择在设计潜在动作模型时，作者仔细考虑了要使用的输入类型。虽然最终选择使用原始图像（像素），但作者在设计 Genie 时针对使用标记化图像的替代方案（在图 5 中用 z 替换 x）来评估这一选择。这种替代方法称为「token 输入」模型（参见表 2）。

分词器架构消融。作者比较了三种分词器选择的性能，包括 1)（仅空间）ViT、2）（时空）ST-ViViT 和 3）（时空）CViViT（表 3）。

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
刚刚，谷歌发布基础世界模型：11B参数，能生成可交互虚拟世界

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2402.15391.pdf项目主页：https://sites.google.com/view/genie-2024/home?pli=1计算机视觉研究院专栏Column of Computer Vision Institute一键生...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。