[大语言模型-论文精读] 以《黑神话：悟空》为研究案例探讨VLMs能否玩动作角色扮演游戏？-CSDN博客

本文链接：https://blog.csdn.net/fyf2007/article/details/142434341

1. 论文简介

论文《Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case》是阿里巴巴集团的Peng Chen、Pi Bu、Jun Song和Yuan Gao，在2024.09.19提交到arXiv上的研究论文。
在这里插入图片描述

论文: https://arxiv.org/abs/2409.12889
代码和数据: https://varp-agent.github.io/
DEMO视频: https://live.csdn.net/v/425911

论文创新点

提出了VARP框架，该框架不依赖游戏API，而是直接使用游戏截图作为输入，通过VLMs进行推理，生成控制游戏角色的动作。
定义了一套针对ARPG游戏的基准任务，并构建了相应的人类操作数据集，为未来研究提供了宝贵的资源。
引入了自我优化动作生成模块（SOAG）和可分解任务特定辅助模块（DTSA），提高了代理在复杂任务中的性能和泛化能力。

核心算法模型

VARP框架：由动作规划系统和人类引导轨迹系统组成，能够处理视觉输入并生成复杂的动作输出。
动作规划系统：包含基础VLMs组、自我优化动作生成模块（SOAG）和可分解任务特定辅助模块（DTSA），用于动作推理和生成。
人类引导轨迹系统：利用人类操作数据，通过检索和学习人类行为，指导代理完成复杂任务。

关键实验数据

基准任务：在《黑神话：悟空》游戏中定义了12个任务，其中75%与战斗相关。
数据集：收集了包含1000条记录的人类操作数据集，包括鼠标键盘操作和游戏截图。
性能：VARP代理在没有人类引导的情况下，在简单和中等难度的战斗任务中达到了90%的成功率，接近新手玩家的表现。

附论文内容简要翻译, 仅供学习参考~~~

摘要

近期，基于大型语言模型（LLM）的代理在各个领域取得了显著进展。其中最受欢迎的研究领域之一是将这些代理应用于视频游戏。传统上，这些方法依赖于游戏API来获取游戏环境和动作数据。然而，这种方法受到API可用性的限制，并且不反映人类玩游戏的方式。随着视觉语言模型（VLMs）的出现，代理现在具备了增强的视觉理解能力，使它们能够仅使用视觉输入与游戏互动。尽管取得了这些进展，当前方法在动作导向任务中仍面临挑战，尤其是在动作角色扮演游戏（ARPGs）中，强化学习方法虽然普遍，但泛化能力差，需要大量的训练。为了解决这些限制，我们选择ARPG《黑神话：悟空》作为研究平台，探索现有VLMs在需要视觉输入和复杂动作输出的场景中的性能边界。我们在游戏内定义了12个任务，其中75%专注于战斗，并引入了几个最先进的VLMs到这个基准测试中。此外，我们将发布一个包含游戏玩法视频和操作日志（包括鼠标和键盘动作）的人类操作数据集。此外，我们提出了一个新颖的VARP（视觉动作角色扮演）代理框架，包括动作规划系统和视觉轨迹系统。我们的框架展示了执行基本任务的能力，并在90%的简单和中级战斗场景中取得成功。这项研究旨在为在复杂动作游戏环境中应用多模态代理提供新的见解和方向。