探索未来游戏交互:STEVE-1 —— 文本到行为的Minecraft生成模型

探索未来游戏交互:STEVE-1 —— 文本到行为的Minecraft生成模型

在AI领域,构建能够响应文本指令的智能体一直是一项挑战,特别是在复杂的序列决策任务中。今天,我们向您推荐一个创新项目——STEVE-1(STEVE-1: A Generative Model for Text-to-Behavior in Minecraft),这个由Shalev Lifshitz等人开发的模型,将Video Pretraining (VPT)与自然语言处理相结合,为Minecraft带来了前所未有的交互体验。

项目简介

STEVE-1是一个基于指令微调的视频预训练模型,它展示了DALL·E 2中的unCLIP方法同样适用于创建遵循指令的序列决策代理。通过两个步骤的训练,首先适应预训练的VPT模型以遵循MineCLIP的潜在空间命令,然后训练一个先验来从文本预测潜在代码。这一创新方式使得仅需$60的训练成本,就可在Minecraft中执行各种短期开放性文本和视觉指令。

STEVE-1 演示图

技术分析

STEVE-1的关键在于其训练策略:自我监督的行为克隆和后视重标定,无需昂贵的人工文本注释即可微调VPT。此外,利用预训练模型如VPT和MineCLIP,并借鉴文本条件图像生成的最佳实践,确保了高效性和性能。

目录结构

该项目的源码组织清晰:

.
├── README.md
├── steve1     // 所有代理、数据集和训练代码
├── run_agent  // 运行代理的脚本
└── train      // 训练代理并生成数据的脚本

应用场景

STEVE-1不仅是一款强大的工具,也是一个研究平台,适用于以下场景:

  1. 游戏交互设计:让玩家用自然语言指挥角色。
  2. AI教育:通过编程教学,让学生编写指令教给AI执行任务。
  3. 虚拟助手:在Minecraft环境中执行日常维护或建造任务。

项目特点

  • 低成本高性能:只需要$60的训练费用,就能实现高精度的指令跟随。
  • 广泛适用:支持广泛的短程开放性文本和视觉指令。
  • 低级别控制:采用鼠标和键盘等底层操作,直接处理原始像素输入。
  • 卓越表现:在Minecraft的低级控制和原始像素输入任务中,性能远超现有基准。

尝试STEVE-1

只需按照README中的设置指南安装环境,运行提供的脚本,即可开始训练、生成游戏视频或进行互动式会话。所有资源,包括模型权重、训练脚本和评估工具,都已开放供进一步研究。

不要错过这个机会,现在就加入STEVE-1的世界,开启你的Minecraft文本操控之旅!为了科研的进步和游戏的创新,让我们一起探索更多可能!

引用本文的研究,请使用以下 BibTeX 标记:

@article{lifshitz2023steve1,
      title={STEVE-1: A Generative Model for Text-to-Behavior in Minecraft}, 
      author={Shalev Lifshitz and Keiran Paster and Harris Chan and Jimmy Ba and Sheila McIlraith},
      year={2023},
      eprint={2306.00937},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}
  • 6
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

齐游菊Rosemary

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值