【论文解读】大模型与游戏-综述和路线图

一、简要介绍

近年来,对大型语言模型(LLM)的研究出现了爆炸式的增长,同时伴随着公众对这一话题的参与。虽然LLM最初是自然语言处理中的一个领域,但它在包括游戏在内的广泛应用和领域中都显示出了非凡的潜力。本文调查了LLM在游戏中的各种应用程序的现状,并确定了LLM在游戏中可以扮演的不同角色。重要的是,作者讨论了LLM在游戏中未来使用的未开发领域和有希望的方向,并提出了LLM在游戏领域中的潜在和局限性。作为LLM和游戏交叉点的第一个全面调查和路线图,希望本文能够在这一令人兴奋的新领域为开创性的研究和创新提供基础。

二、背景

五年前,自回归语言建模在自然语言处理中是一个比较小众的话题。基于现有文本简单预测文本的训练模型被认为是主要的理论意义的,尽管它可能有作为写作支持系统的应用。2019年GPT-2模型发布时发生了巨大变化。GPT-2令人信服地证明了,在大型文本语料库上训练的转换器模型不仅可以产生令人惊讶的高质量和连贯的文本,而且还可以通过仔细提示模型来控制文本的生成。随后的发展,包括更大的模型、指令微调、来自人类反馈的强化学习,以及2022年底ChatGPT中这些特性的结合,增强了人们对大型语言模型(LLMs)的兴趣。突然之间,LLM几乎可以做任何事情——只要问题和解决方案都可以被表述成文本。

LLM目前是一个非常活跃的研究领域,研究人员既专注于提高LLM的能力,同时减少它们的计算和内存占用,也专注于理解和学习利用现有LLM的能力。从那些认为这些模型是“AGI的火花”的人,到那些认为它们主要是从互联网的有损压缩中进行近似检索的人,关于LLM技术最终能力的知情意见差异很大。

游戏,包括棋盘游戏和电子游戏,既是人工智能研究的重要基准来源,也是人工智能技术的重要应用领域。几乎任何一款游戏都利用了某种人工智能技术,目前正处于一个探索阶段,开发者和研究人员试图弄清楚如何最好地利用AI的最新进展。有人也可能会说,电子游戏设计和电子游戏技术可能是未来人机交互发展的主要基础。

在本文中,开始调查LLM对游戏和游戏研究的影响,以及它们在近期到中期可能产生的影响。调查了来自学术界和使用LLM的(主要是独立的)游戏开发者的现有工作。本文没有着手捕捉LLM技术或LLM训练的算法。该领域技术进步的惊人速度很可能会使的编写报告在一年左右的时间内过时。相反,本文专注于在游戏中利用LLM的工作,并提出了LLM可以在更广泛的游戏生态系统中扮演的一系列角色。为在游戏中使用LLM的努力提出了有希望的未来方向,并讨论了在游戏中使用LLM研究的更光明的未来应该解决的局限性(技术和伦理)。

三、LLMS

在游戏中的角色 过去在游戏中对AI类型的尝试集中于AI在游戏中可以扮演的三个角色:玩一个游戏,设计一个游戏,或模拟(人类)玩家。LLM通常以对话代理的形式呈现,这通常会导致公众赋予他们拟人化的品质——比如推理和创造力。因此,当考虑到LLM可以在游戏中或游戏开发过程中所扮演的角色时,就会遵循这些趋势。LLM可以在游戏中操作作为一个玩家(取代人类玩家而模仿他们的目标),作为一个非玩家角色如敌人或对话者,作为一个人类玩家的助手提供提示或处理卑微的任务,作为一个游戏管理控制游戏的流动,或隐藏在游戏的规则集(控制一个小或主要的游戏机制)。然而,LLM还可以在游戏运行时之外扮演其他角色,比如游戏的设计师(取代人类设计师)或作为人类设计师的助手。最后,LLM可以以不同的方式与玩家或观众进行交互,充当正在进行的游戏会话(在运行时期间)的评论员,或者以某种叙述形式(在运行时之外)重新讲述过去的游戏事件。其中一些角色(自主玩家、自主设计师)在更广泛的人工智能和游戏研究中非常突出,而其他一些角色则在探索性研究中被实验。下面的部分介绍角色本身,调查为每个角色进行的研究,同时在第4节中确定未来研究的差距和机会。

3.1 玩家Player

LLM如何才能玩游戏?从根本上说,语言模型玩家需要从他们典型的输出空间(即标记序列)到游戏的输入空间进行一些转换。此外,游戏的某些方面及其当前状态必须以某种形式提供给LLM,以便它能够在任何合理的水平上玩。根据游戏本身的不同,这些映射可能是直观的或复杂的。确定三个一般类的游戏LLM玩家很适合: (a)游戏状态和动作可以紧凑地表示为抽象的序列,(b)游戏的主要输入和输出模式是自然语言,(c)游戏的外部程序可以通过API控制玩家行动。

第一类游戏主要包括回合制的棋盘游戏(例如国际象棋),因为离散的棋盘位置和移动集比第一人称射击游戏更容易转换为紧凑的表示(例如便携式游戏符号)。通过标记从游戏数据库中获取的移动序列,行动选择的问题可以映射到训练LLM的标准自回归学习目标——给定之前的上下文预测下一步移动。国际象棋,Go 和Othello都以这种方式被用作LLM玩家的测试平台。然而,棋盘游戏并不是唯一一种可以表示为令牌序列的游戏:GATO 代理可以通过处理视觉输入作为栅格顺序的像素值序列,在人类或接近人类的水平上玩各种Atari游戏。像素值与分隔符令牌和之前的动作交织在一起,允许模型准确地预测人类游戏轨迹数据集中适当的游戏动作。Transformer模型能够捕捉空间和视觉动态的持续改进,允许类似的方法扩展到更复杂的游戏。然而,这些方法需要大量的游戏视频数据集,这可能比较难以收集。此外,注意到,依赖人类游戏轨迹作为学习的基础可能会使LLM玩家更难在没有推理和泛化飞跃的情况下达到超人的表现。

第二类游戏最明显的是包括文本冒险游戏,如Zork(Infocom,1977),其中游戏状态以自然语言描述的形式呈现,并且游戏已经配备了一个解析器来处理自然语言响应。这意味着LLM可以以一种仍然利用它们对自然语言文本的大规模预训练的方式来查询游戏动作。LLM在这类文本游戏中的最早应用是CALM ,这是一个GPT-2系统,基于从各种基于文本的冒险游戏中收集的人类游戏记录数据集。该模型被训练来预测由人类玩家提供的自然语言字符串,它给定了之前的状态和行动的上下文,以及关于虚拟角色的信息(例如他们的库存)。为了真正地玩游戏,经过训练的语言模型生成多个候选动作,并使用深度强化学习(RL)来优化从候选动作中选择动作的策略。在其发布时,这个RL组件是必要的,因为LLM本身不能很好地推广到没见过的游戏或情况。然而,最近一项关于ChatGPT作为Zork玩家的调查表明,LLM的表现正在变好。在一个初步实验中,Yao等人表明,ChatGPT的性能可以接近现有的文本游戏算法,只要人类对话者保持在循环中帮助模型(例如提醒它已经尝试过的动作)。然而,在以这种方式将LLM直接应用于文本游戏中方面,显然还有很大的改进空间。此外,LLM玩完全新奇或没见过的文本游戏的能力(考虑到在训练期间系统遭遇演练或流行文本游戏的可能性尤其重要)在很大程度上仍未被探索。

除了文本冒险游戏,LLM玩家在棋盘游戏中最著名的应用是CICERO ,用来玩交易和欺骗游戏Diplomacy。Diplomacy是自然语言教学的有利条件,因为玩家可以在私人信息中自由交谈,以安排计划、谈判或欺骗。CICERO 建立了一个预先训练过的LLM,并编有大量的Diplomacy记录。在整个游戏过程中,模型中的样本被发送给其他玩家,并收集各种对话记录来调整潜在的

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值