探索未来游戏交互：STEVE-1 —— 文本到行为的Minecraft生成模型-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00013/article/details/139491852

探索未来游戏交互：STEVE-1 —— 文本到行为的Minecraft生成模型

在AI领域，构建能够响应文本指令的智能体一直是一项挑战，特别是在复杂的序列决策任务中。今天，我们向您推荐一个创新项目——STEVE-1（STEVE-1: A Generative Model for Text-to-Behavior in Minecraft），这个由Shalev Lifshitz等人开发的模型，将Video Pretraining (VPT)与自然语言处理相结合，为Minecraft带来了前所未有的交互体验。

项目简介

STEVE-1是一个基于指令微调的视频预训练模型，它展示了DALL·E 2中的unCLIP方法同样适用于创建遵循指令的序列决策代理。通过两个步骤的训练，首先适应预训练的VPT模型以遵循MineCLIP的潜在空间命令，然后训练一个先验来从文本预测潜在代码。这一创新方式使得仅需$60的训练成本，就可在Minecraft中执行各种短期开放性文本和视觉指令。

技术分析

STEVE-1的关键在于其训练策略：自我监督的行为克隆和后视重标定，无需昂贵的人工文本注释即可微调VPT。此外，利用预训练模型如VPT和MineCLIP，并借鉴文本条件图像生成的最佳实践，确保了高效性和性能。

目录结构

该项目的源码组织清晰：

.
├── README.md
├── steve1     // 所有代理、数据集和训练代码
├── run_agent  // 运行代理的脚本
└── train      // 训练代理并生成数据的脚本

应用场景

STEVE-1不仅是一款强大的工具，也是一个研究平台，适用于以下场景：

游戏交互设计：让玩家用自然语言指挥角色。
AI教育：通过编程教学，让学生编写指令教给AI执行任务。
虚拟助手：在Minecraft环境中执行日常维护或建造任务。

项目特点

低成本高性能：只需要$60的训练费用，就能实现高精度的指令跟随。
广泛适用：支持广泛的短程开放性文本和视觉指令。
低级别控制：采用鼠标和键盘等底层操作，直接处理原始像素输入。
卓越表现：在Minecraft的低级控制和原始像素输入任务中，性能远超现有基准。

尝试STEVE-1

只需按照README中的设置指南安装环境，运行提供的脚本，即可开始训练、生成游戏视频或进行互动式会话。所有资源，包括模型权重、训练脚本和评估工具，都已开放供进一步研究。

不要错过这个机会，现在就加入STEVE-1的世界，开启你的Minecraft文本操控之旅！为了科研的进步和游戏的创新，让我们一起探索更多可能！

引用本文的研究，请使用以下 BibTeX 标记：

@article{lifshitz2023steve1,
      title={STEVE-1: A Generative Model for Text-to-Behavior in Minecraft}, 
      author={Shalev Lifshitz and Keiran Paster and Harris Chan and Jimmy Ba and Sheila McIlraith},
      year={2023},
      eprint={2306.00937},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}