刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

3cc69ea03c7af2722e8ae6d68cd00e43.gif

dec18bddb68373b74801b10de93b9b8b.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

8ab3d44c4932c9b506dce43840fff862.png

  • 论文地址:https://arxiv.org/pdf/2402.15391.pdf

  • 项目主页:https://sites.google.com/view/genie-2024/home?pli=1

计算机视觉研究院专栏

Column of Computer Vision Institute

一键生成可玩游戏世界。

300fac2a77d355db98e32fdfb0183c4c.gif

826d58c2dae96d14fb28d55434cfea65.png

332d7d9a36e8987540324f82f68bbdf8.png

5984f79a77967780cf82ed1846d22d7d.gif

c050f298081e14770c39d13337d07f19.png

6d81a4ba3534a7684d3c1d02ac9c5cc2.png

0026e46516e8f645b0932b6966db6a67.png

a3b657d49ffb54041ce11f0d320addeb.gif

0a6eaaaffc8a0f14ce63f1029de1b193.png

c63c86aa0191c29f76817e1a29702e7a.gif

Genie 能做到的不止如此,它还可以应用到草图等人类设计相关的创作领域。

e5e0669b6a7a063a2fe95bed372c789f.gif

或者,应用在真实世界的图像中:

cd7b211aef31d2f29c7a38752bb49a6d.gif

5488429f066e3b4bbc8d144639dafd45.png

e3bf6c6974de133bea05ba56616410e3.gif

技术揭秘:论文《Genie: Generative Interactive Environments》已公布

谷歌 DeepMind 已经放出了 Genie 论文。

f6875dbbe41b26f50f6426d227d945bc.png

  • 论文地址:https://arxiv.org/pdf/2402.15391.pdf

  • 项目主页:https://sites.google.com/view/genie-2024/home?pli=1

方法介绍

e21b80822850f8636a36b01255a427a5.png

9466f3772c03a594048af8dc6259a6cd.png

1974dcff21dd8bc80dcf3105d6c37596.png

efff3ad902778d05828c41eb0e28d951.png

动态模型:是一个仅解码器的 MaskGIT transformer(图 7)。

48b5d2f807fc32bc9192fc80876193ec.png

Genie 的推理过程如下所示

b98dae63e449f4d5f2be3a393ea70c73.png

实验结果

d6e0518c14e3407c17906430ea13633f.png

28ff9bf1be7e938d0207249c601bf90d.png

a031ab8faeb915e0b3dabdf0c7b992a8.png

33305cc725a49a271d95f1ed790da10f.png

智能体训练。或许有一天,Genie 可以被用作训练多任务智能体的基础世界模型。在图 14 中,作者展示了该模型已经可以用于在给定起始帧的全新 RL 环境中生成不同的轨迹。

70cf4d564490a255378b7bb225f1028e.png

作者在程序生成的 2D 平台游戏环境 CoinRun 中进行评估,并与能够访问专家操作作为上限的预言机行为克隆 (BC) 模型进行比较。

824b4d61d263ab77a332a34ba051fc42.png

消融研究。选择在设计潜在动作模型时,作者仔细考虑了要使用的输入类型。虽然最终选择使用原始图像(像素),但作者在设计 Genie 时针对使用标记化图像的替代方案(在图 5 中用 z 替换 x)来评估这一选择。这种替代方法称为「token 输入」模型(参见表 2)。

486c6116920ce8fdb6cb685b400b1bb7.png

分词器架构消融。作者比较了三种分词器选择的性能,包括 1)(仅空间)ViT、2)(时空)ST-ViViT 和 3)(时空)CViViT(表 3)。

18bfa09ce2643af61fde6c7315a39c94.png

874d3db1ba5fb11904d2825f38b0387a.gif

END

2574f385278f9606ec6e4508cf3642d3.gif

a8f2ba30497d5bff63c9d5bec7604703.gif

转载请联系本公众号获得授权

4d213108f0d505bfc7df64b0f40b847e.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

464ccf1b7ee4b011f706b492e709ec56.png

 往期推荐 

🔗

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值