上交大推出“可进化游戏引擎”！大模型加持代码自动成长，虚拟世界演化无需预设...

转载于 2024-09-03 17:35:44 发布

· 239 阅读

版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247747001&idx=4&sn=7542e4c85ca5a692e811ddd5a6f22442&chksm=e9631c5eb2c437e223e865a54305d787136e26e61d1aa44e5e1a848a52194793b7325d95b009&scene=126&sessionid=0

文章标签：

#游戏引擎 #人工智能

WY 投稿凹非寺
量子位 | 公众号 QbitAI

试问谁小时候没有幻想过有一只专属于自己的宝可梦？（可以DIY的那种~）

最近来自上海交通大学的团队整了个“可进化游戏引擎”，实现了这个儿时梦想：

大模型与传统游戏引擎结合，能够被被特定的条件触发，自动地成长出新的代码。

选择宝可梦题材做实验，是因为团队中大部分成员都是宝可梦粉丝，目前相关论文已上传ArXiv平台。

「失控玩家」走进现实

研究团队用电影《失控玩家》中的主人公 “Guy”举了一个的例子。

Guy原本是虚拟游戏中的一名NPC，每天都生活在被规划好的剧本里，每天重复着相同的事情。但在阴差阳错下，他却拥有了改变生活、打破剧本的能力。

研究人员们非常希望在其他游戏中也能看到类似的情节 ———NPC在线进化。

例如被蜘蛛咬到、发现奇妙的宝藏等，从而解锁全新的能力，甚至有可能在某一天转变为反派角色。

不过他们幻想的内容大多数并不在虚拟世界的剧本中，无法被实现。

因此，他们将虚拟世界的进化特性联系到了其背后引擎的可拓展性：当前虚拟世界的引擎不具备可拓展性，无法拓展出新的内容，从而无法发生进化。

于是他们提出了一种全新的引擎Delta-Engine，它能够被特定的条件触发，从而自动地成长出新的代码。

Delta-Engine由两个组件构成：

基座引擎（Base Engine）：一个原始的引擎，它刻画了虚拟世界最初的样子，代表了其静态的部分。

代理模型（Neural Proxy）：一个神经网络作为基座引擎的外包装，它代表了虚拟世界可变的部分，特定的输入能够触发它在基座引擎的基础上生成新的代码。

研究人员选择了一个大语言模型作为基础，他们认为大语言模型还能够支持多种类型的输入，例如文本、图像、以及脚本语言，有利于虚拟世界的打造。

而针对Delta-Engine的可拓展性，他们也相应提出了一种高效的拓展方式，叫做增量预测。

简单来说，就是让代理模型预测基座引擎上的新增内容。

他们还强调，仅对于代理模型来说，增量预测和上下文学习、RAG是相交的概念。但增量预测是对于整个Delta-Engine而言的概念，它和基座引擎的设计密切相关。

DIY专属宝可梦

基于Delta-Engine，研究人员们打造了一款类虚拟世界的概念游戏：‍‍‍

Free-Pokémon（失控宝可梦）‍

在传统的宝可梦游戏中，各个角色的内容包括其成长模式都是被预设好的。

而在Free Pokémon中，玩家将为自己量身定做一只专属宝可梦，从最初阶段的白板宝可梦，通过不断的对战，从而进化学会全新的能力。

每一次进化将完全取决于玩家的意愿，玩家可以通过自然语言，根据自己的喜好任意地编写新的属性、特性、以及技能。

△以上专属宝可梦，灵感来自于怪物猎人中的“轰龙”

研究人员称其为开放角色扮演游戏（ORPG），每一名玩家的游戏中角色都会各不相同。

他们认为，玩家在虚拟世界中的形象是他在真实世界中的映射，能够反映玩家的某种欲望，可能是对现实世界的抽离、或是对现实世界的深入。

ORPG带来的开放性，能够极大程度满足玩家对自我的另一种表达。

Free Pokémon中每一个创建的角色都对应着一个Delta-Engine。

玩家首先输入自然语言，随后会被转换成对应的角色剧本。Delta-Engine接受角色剧本生成相应的角色代码。随着角色的进化，引擎也会随之膨胀。

研究人员还提供了他们设计的一只宝可梦作为示例，它以以下剧本初始化：

{
  "物种": "路卡利欧",
  "属性": [
    "格斗",
    "钢"
  ],
  "特性": {
    "胜利之心": "上场时，该宝可梦的攻击和特攻数值变为1.25倍。"
  },
  "招式": {
    "波导弹": {
      "威力": 80,
      "命中率": 100000,
      "分类": "特殊",
      "属性": "格斗",
      "效果": "该招式必定命中。"
    },
    "加农光炮": {
      "威力": 80,
      "命中率": 100,
      "分类": "特殊",
      "属性": "钢",
      "效果": "10%几率令目标的特防降低1级。"
    }
  }
}

‍Delta-Engine的输出为：

class Lucario(PokemonBase):
    def __init__(self):
        super().__init__()


    def onswitch(self):
        # 登场时攻击和特攻变为1.25倍
                    self.set_stat('atk',1.25)
                    self.set_stat('spa',1.25)


    def move_1(self): # Aura Sphere
        damage_ret=self.get_damage()
        if not damage_ret['miss']:
            damage=damage_ret['damage']
            self.target.take_damage(damage)


    def move_2(self): # Flash Cannon
        damage_ret=self.get_damage()
        if not damage_ret['miss']:
            damage=damage_ret['damage']
            self.target.take_damage(damage)
            # 10%几率令目标的特防降低1级
            if not self.target.isfaint() and rnd()<10/100:
                self.target.set_boost('spd',-1)

仔细看，其实能够很轻松找到代码和上方剧本的对应关系。

onswitch对应了宝可梦的胜利之心特性，而move_1和move_2分别对应了两个招式，波导弹和加农光炮。

值得注意的是，胜利之心是研究人员原创的特性，不属于官方特性，这也是ORPG的特点之一，玩家可以自行创造自己的专属内容。

接下来关键的内容来了，研究人员再次输入：

学习一个新招式
"保护": {
  "威力": 0,
  "命中": 100000,
  "分类": "变化",
  "优先": 4,
  "属性": "一般",
  "效果": "在这一回合中，使用者将免受其他宝可梦的攻击。如果使用者在上一回合使用了此招式，则此招失败。"
}

Delta-Engine的输出为：

@Increment(Lucario)
def move_3(self): # Protect
    if self['last_act'] and self['last_act']['id']=='Protect':
        return
    # 设置保护状态
    self.set_condition('PROTECT',counter=0)


@Increment(Lucario)
def _take_damage_attack(self,x):
    # 免受其他宝可梦的攻击
    if self['conditions'].get('PROTECT'):
        del self['conditions']['PROTECT']
        return
    self.register_act_taken()
    self.state['hp']=max(0,self['hp']-x)
    if self['hp']==0:
        self.state['status']='FNT'


@Increment(Lucario)
def endturn(self):
    # 回合结束时保护消失
    if self['conditions'].get('PROTECT'):
        del self['conditions']['PROTECT']

以上为Delta-Engine增量预测的结果，它在初始代码的基础上新增了三个类方法，来实现新的保护招式。

理论上来说，基于特定的输入，Delta-Engine可以无限制地进行这种新增，从而让角色开放式地进化。