Agent AI Application Tasks

本文聚焦人工智能在多领域的应用。在游戏中,借助GPT - 4V等技术实现行为预测、NPC互动优化和场景合成;机器人领域强调视觉运动控制及GPT - 4V的应用;自然语言处理方面,探讨LLM代理的改进方向及相关实验成果,还提出新数据集和基准推动研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于这段文本的理解,主要描述的是一种基于GPT-4V的游戏行为预测与多交互编辑的实体代理,在《我的世界:地牢(Minecraft Dungeons)》游戏中模拟和生成游戏感知。

在这个场景中,研究者们将GPT-4V引入到游戏的动作预测和交互式编辑上。他们这样做的目标是使游戏的体验更加真实。

这里的"GPT-4V"可以理解为是一种强大的人工智能算法,就像是一个超级智能的“棋手”,可以预测玩家的下一步动作,并且进行互动。《我的世界:地牢》则是一款著名的电子游戏,可以想象为这个“棋盘”。

"实体代理"则是一种代表玩家在虚拟游戏世界中行动和交互的角色。类似于控制“棋子”的手,在游戏世界中为玩家提供操作场景。

"游戏感知模拟和生成",则是通过GPT-4V这个“棋手”对游戏环境和动作进行分析,模拟发生事情的可能性,并试图生成最有可能的游戏路径。类似于预测“棋盘”上可能发生的情况,并试图找到最好的走法。

总的来说,研究者们在这项研究中,通过结合GPT-4V和虚拟游戏环境,在游戏行动预测和交互编辑方向上进行研究和尝试,最终完成一种在《我的世界:地牢》游戏中感知生成和模拟的实体代理。

1.1 Agents for Gaming

游戏为测试LLMs(低层次模型)和VLMs(高层次模型)的主体行为提供了一个独特的沙盒环境,这挑战了他们在合作和决策能力方面的界限。研究者们特别描述了三个方面,突出了代理人与人类玩家以及其他代理人的交互能力,以及他们在环境中采取有意义行动的能力。

首先,代理人与人类玩家和其他代理人的互动。这里的"代理人"可以理解为游戏中的人工智能角色,与人类玩家或其他AI角色的互动就像是两个人在棋盘上互相出招,互动的方式和规则都被预设在了游戏之中。

其次,代理人的决策能力。就像下棋的人需要评估每一步的利弊,选择最佳的行动方案一样,代理人的决策能力是衡量其智能程度的重要标准。这不仅需要理解其当前的环境状态,还需要预测可能的未来趋势,甚至需要对其他玩家的行为有一定的预判。

最后,代理人在环境中采取有意义的行动的能力。这意味着,代理人不仅需要做出决策,还需要将决策转化为实际的行动。这种行动不仅需要在当前环境中可行,还需对整个游戏环境产生积极的影响。

总的来说,游戏为研究者们提供了一个理想的平台,不仅可以测试代理人的互动能力,还可以观察他们的决策过程和行动结果,为人工智能领域带来了新的研究视角和方法。

1.1.1 NPC Behavior

在现代游戏系统中,非玩家角色(NPCs)的行为主要由开发人员精心编写的预定义脚本控制。这些脚本包含了基于各种触发器或玩家在游戏环境中的行为所产生的各种反应和互动。然而,这种脚本化的性质往往会导致NPC的行为变得可以预测或者重复,无法根据玩家的行为或游戏的动态环境进行适应性变化。这种刻板性限制了游戏环境的沉浸式体验。因此,人们对于利用大型语言模型(LLMs)来赋予NPC行为自主性和适应性,使互动更加细腻和引人入胜的需求日益增强。由AI驱动的NPC可以学习玩家的行为,适应不同的策略,并提供更具挑战性和不可预见性的游戏体验。

大型语言模型(LLMs)可以大大促进游戏中NPC行为的发展。通过处理大量的文本,LLMs能够学习模式,并生成更多样的、类似人类的反应。可以利用它们来创建动态的对话系统,使得与NPC的互动变得更令人投入,更不可预见。此外,LLMs还可以针对玩家反馈和游戏数据进行训练,不断优化NPC的行为,使其更符合玩家的期望和游戏的动态。

这就好比,NPC是安装了预设程序的机器人,原先无论环境如何变化,都按照预设的程序行动。现在,LLMs就如同给NPC装上了一个能学习和理解环境变化的"大脑",让NPC能够调整行为,显得更加自然,也更有趣。

1.1.2 Human-NPC Interaction

在游戏体验中,人类玩家与非玩家角色(NPC)的互动是至关重要的一部分。传统的互动范式主要是一种单向的互动形式,NPC对玩家的输入采取预设的响应。这种限制阻碍了更自然且丰富的互动潜力的实现,这种互动类似于虚拟领域内的人与人的互动。长短记忆(LLM)和视觉LM(VLM)技术的出现有可能改变这样的范式。通过应用这些技术,游戏系统可以分析并从人类行为中学习,以提供更像人类的互动。这不仅增强了游戏的真实性和参与感,也为探索和理解人机交互提供了一个在受控而复杂的环境下进行的平台。

GPT-4V在给定“动作历史”和“游戏目标”时,可以有效地预测未来的高级动作。此外,GPT-4V能准确识别出玩家正在手中持有木头原料,并能将这些被感知到的信息纳入到未来的动作计划中。尽管GPT-4V看起来能预测一些低级动作(例如按'E'键打开背包),但模型的输出并不固有地适用于预测原生的低级动作(包括鼠标移动),并可能需要额外的模块来进行辅助,以控制低级别的动作。

1.1.3 Agent-based Analysis of Gaming

游戏是日常生活的重要组成部分,据估计,全球一半的人口都参与其中。此外,它对精神健康也有积极影响。然而,现代游戏系统在与人玩家的互动方面存在缺陷,因为他们的行为主要由游戏开发者手动设计。这些预设定的行为常常无法适应玩家的需求。因此,有必要在游戏中使用新的AI系统来分析玩家行为,然后在需要时提供适当的支持。智能互动系统有可能彻底改变玩家与游戏系统的互动方式。NPC(游戏中的非玩家角色)与玩家的互动不再局限于游戏开发者设计的局限性规则。NPC有潜力无缝适应玩家的体验,提供及时的反馈,以丰富游戏体验,提升人机交互的协同效应。

长距离语言模型(LLMs)可以作为分析游戏内文本数据(包括聊天记录、玩家反馈和叙述内容)的强大工具。它们可以帮助识别玩家行为、偏好和互动的模式,这对游戏开发者改进游戏机制和叙述是无价的。此外,视觉语言模型(VLMs)可解析来自游戏会话的大量图像和视频数据,有助于分析游戏世界内用户的意图和行动。而且,LLMs和VLMs可以便于开发能以复杂而类人的方式与玩家和其他智能代理交流的游戏代理,从而提升整体的游戏体验。除了LLMs和VLMs,用户输入数据提供了一个有前景的途径,通过模仿人类玩家对游戏的感知、玩游戏和理解游戏,可以创建扮演游戏角色的代理。通过集成玩家互动和反馈的组合、像素输入以及自然语言计划和理解等方面,代理模型可以协助持续改进游戏动态,推动更以玩家为中心的游戏环境演进。

 

1.1.4 Scene Synthesis for Gaming

场景合成是游戏环境创建和增强的重要组成部分,涵盖了游戏内三维场景和环境的自动生成或半自动生成。这个过程包括地形生成、物体放置、真实光照的创建,甚至包括动态天气系统的生成。

现代游戏通常具有广阔的开放世界环境,手动设计这些景观既耗时又耗资源。自动地形生成技术,常常借助程序化或人工智能驱动的技术,可以减少人工努力,生产出复杂、真实的景观。言语模型(LLMs)和视觉言语模型(VLMs)可以利用互联网的大规模知识,生成规则,设计出既独特又视觉震撼的非重复性景观。此外,LLMs和VLMs还可以确保生成资产的语义一致性和可变性。将建筑、植被和其他元素逼真而富有美感地放置在一个场景中,对于沉浸感至关重要。

LLMs和VLMs在物体放置方面可以帮助,它们遵循预定义或学习的规则和美学,从而加快了关卡设计的流程。经过进一步训练后,这些模型能理解设计和美学的原理,辅助程序化生成内容。它们可以帮助制定规则指南,以便程序算法生成既视觉吸引力又符合上下文的物体和场景。

真实的光照和大气效果对于创建富有吸引力的游戏环境至关重要。先进的算法可以模拟自然光照条件和动态天气效果,提高场景的真实性和情感氛围。LLMs可以帮助以创新方式开发系统,实现更真实的光照和大气效果。VLMs可以分析来自现实世界光照和大气条件的大规模数据集,帮助开发更真实的游戏模拟效果算法。通过理解自然光照和天气的模式和复杂性,这些模型可以为开发更接近现实的算法做出贡献。LLMs和VLMs还可以用于开发基于玩家动作、游戏状态或外部输入实时调整光照和大气效果的系统。它们可以处理来自玩家的自然语言命令,修改游戏环境,提供更互动和沉浸的体验。

1.1.5 Experiments and Results

研究者们使用了GPT-4V模型,用来生成与游戏视频相对应的高级描述和动作预测(如图:GPT4Vgamediog和GPT4Vminecraft)。佳能增强文本开创了一种新的方法,用游戏动作先验生成3D场景,以帮助改善场景的自然性。在这种情况下,GPT-4V能生成与视频游戏相关的适当高级描述。

极简Agent预训练模型

为了展示视觉-语言架构,研究者们首先研究了预训练Minecraft数据中其应用的效果。如图:AMT所示,给定动作Agent、视频关键帧和对应的文本,可以用标准的编码器-解码器将Agent动作和图像转化为动作文本token和图像patch token,然后使用视觉-语言解码器将其转化为预测动作的句子。整体架构如图&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

之乎者也·

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值