论文笔记:Honor of Kings Arena: an Environment forGeneralization in Competitive Reinforcement Learning

NIPS 2022

1· abstract & intro

  • 提出了一个基于王者荣耀1V1的强化学习环境(开悟对战平台)
    • 可以模拟王者MOBA 1v1的游戏引擎
    • 多agent问题(玩家agent,对手agent)
    • 需要一定的泛化能力
      • 不同己方英雄(target)来控制
      • 不同敌方英雄来对战
      • ——>一个好的AI模型需要在控制不同己方英雄对战不同敌方英雄时,都有稳定的表现
    • 要赢下一局比赛,agent需要进行规划、攻击、防御、连招等很多方面的动作决策,同时在部分可观测的环境中考虑对手的状态和行为

a——王者1V1(墨家机关道)地图

b——不同敌方英雄的泛化能力(比如敌方是貂蝉和干将)

c——不同己方英雄的泛化能力(比如我方是貂蝉和干将)

2 开悟游戏环境

2.1 游戏目标

  • agent最基本的目标就是摧毁敌方水晶,同时己方水晶完好
    • 游戏开始后控制英雄,通过击杀敌对单位、摧毁敌方防御塔获得金币和经验
  • 目前有的英雄是红框里的这些(看起来有点年头了,云中赛年的暃、桑启、戈雅、海月都没有233)
  •  目前只实现了20个英雄,所以一共有20*20=400种task

 2.2 agent

2.2.1 observation

  • 对于不同英雄来说,观测空间应该是一样的
    • ——>这样才可能在不同任务之间进行泛化
  • 观测空间主要由五块组成
    • (露娜应该是普攻接月光标记、鲁班是普攻接扫射,为啥橘子需要9个状态。。。) 

 2.2.2 动作空间

  • 也是所有英雄一致
    • 摁哪个按钮
    • 以谁为目标
    • 怎么执行这个动作(释放动作/移动的方位)

 

 

2.2.3 奖励

 2.2.4 episode dynamics

  • 在开悟中,每133ms进行一个动作
    • ——>匹配顶层业余玩家的水平
  • 游戏局中的限制有状态转换规则限制(比如防御塔不掉,水晶不会受伤害)

3 比较对象

开悟和不同类型的agent进行比赛

  • 一个决策树AI(BT)
    • 匹配黄金段位水准
  • 训练的agent

4 validation

在接下来的实验中,购买的装备数,学习的技能都是一样的(重点关注agent比赛中的技巧)

4.1 baseline

使用了PPO和APE-X DQN

使用和原始论文一致的超参数和配置

4.2 在不同资源上的可行性

(貂蝉内战)

通过实验证明,CPU数量(非GPU数量)是决定战胜BT所需时间的因素

CPU核越多,所需时间越少

 4.3 不同模型的表现

(貂蝉内战)

 4.4 和BT的比较

PPO VS BT

 5 对战RL的泛化能力挑战

随着双方英雄的不同,环境也随即发生改变,这里开展了两个实验来说明强化学习迁移性的挑战。

5.1 不同对手之间的迁移能力


  • 红色:用貂蝉内战进行训练,用貂蝉和20个英雄对战进行测试
  • 绿色:multi-task,用貂蝉和貂蝉/火舞/露娜/干将/钟馗的对战进行训练,用貂蝉和20个英雄对战进行测试
  • 蓝色:丛五个模型中蒸馏,得到student network,用策略来控制貂蝉和20个英雄对战进行测试

5.2 不同玩家控制英雄之间的迁移能力

5.3 不同等级的模型(用于评估)

不难发现,在5.1和5.2中,各种方法下,打婉儿、老虎、鲁班的胜率都是0,这不利于评价和衡量模型

——>这里提供了不同等级的trained agent

 

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值