Hierarchical Macro Strategy Model for MOBA Game AI 笔记

前言

作者认为游戏ai的下一个挑战在于实时策略游戏(RTS)。RTS比围棋困难的方面有:1)计算复杂度。动作空间与状态空间比较大。2)多智能体。他们的协作很关键。3)不完美信息。战争迷雾增加了游戏的不确定性。4)稀疏与延时奖赏。游戏长度太长了。OpenAI Five直接在micro 级别动作空间上使用PPO结合团队奖赏进行学习,缺乏宏观策略。相关工作宏观策略主要是导航——提供目的地以及路由。使用influence map,通过handcrafted等式量化单位,多个地图进行融合输出单值导航agent。导航最重要的目标是提供目的地。planning也用于宏观策略操作,比如AHTN,搜索层次化任务,但是效率不行。
之前的文献没能提供彻底的解决方案:

  1. 通过微观动作空间隐式地学习宏观策略或许太难了。仅仅通过微观动作以及奖赏让模型搞清楚高层策略或许过于乐观,作者考虑明确地建模宏观策略。
  2. 明确宏观策略的太依赖handcrafted等式,太多数值参数需要人为决定是这变得不实际。planning方法效率低下。
  3. 宏观策略中最具挑战性的问题之一是agent之间的协作,但是之前的方法没有显式的考虑。OpenAI Five通过team reward,但是做决策时不管别人的宏观决策,因此宏观策略级难以获得顶级协作。
  4. 建模策略阶段很重要,但是之前的工作没考虑这个。
    作者首先进行监督学习,获得初始策略,包括宏观与执行,然后进行强化学习。其在游戏阶段建模的指导下通过预测游戏地图上的注意力来构建宏观策略操作。还有新奇的沟通机制。
    宏观策略架构为两层,一个是关于游戏阶段的phase,一个是预测游戏地图中分派agent的最优区域。微观操作几乎与openAI的一样。

模型

层次化宏观策略模型(HMS)将phase与attention均建模为multitask模型,输入为游戏特征,输出包含两个任务,attention是main task,phase是auxiliary task。两者从共享层中获取输入。

attention layer

其将player下一次战斗发生的地方作为ground-truth,because otherwise players would not have spent time on such spots。 s s s是游戏的一个session,包含一些frame, s − 1 s-1 s1是前一个session, t s t_s ts s s s的起始frame,一个session以一个攻击动作结束,因此在起始frame t s t_s ts中有个region y s y_s ys是攻击发生的地方,将其作为 s − 1 s-1 s1的label,这样就能在游戏开始时直接往攻击发生的地方移动。
在这里插入图片描述

phase layer

认清当前游戏的局势。提取局势作为标签是很难的,不仅仅是与实践相关,还与当前的游戏形式有关。作者发现了游戏阶段与重要资源之间的关系。因此此处的标签与attention相似,不过 y s y_s ys不再是region上的攻击行为,而是对于重要资源的攻击行为,比如打龙,推塔。这里没有把路上的小兵,英雄,中立野生生物作为重要目标,因为这些资源通常是为了更大的目标,比如以更大的可能摧毁炮塔,基地。希望模型学习when和what主要资源要去take给定游戏场景,同时给每个主要资源一个注意力分布。

Imitated Cross-agents Communication

通过监督学习学习沟通,具体是
During training phase, we put attention labels of allies as features for training.
During testing phase, we put attention prediction of allies as features and make decision correspondingly.
attention layer输出全地图每个小格的attention,phase输出所有主要资源的attention。
MCTS roll-outs进行planning或许是更好的顶层策略设计方式。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值