论文笔记 Hierarchical Macro Strategy Model for MOBA Game AI

Hierarchical Macro Strategy Model for MOBA Game AI

自从围棋被alpha go 解决之后,强化学习领域就把自己的注意力转向了RTS游戏,比如MOBA类游戏。OPENAI 玩dota, 腾讯自然就是玩王者荣耀。首先说说这个领域的难点。

  • 问题复杂度高,状态空间或动作空间可以达到 1 0 20000 10^{20000} 1020000
  • 多智能体优化,因为涉及队友间的合作之类的。
  • 信息不完全,因为存在战争迷雾
  • 稀疏奖励以及延迟奖励,游戏结束才知道奖励。

作者还说之前的OPENAI论文缺乏对宏观策略的掌控,只懂“操作”也就是微观策略,没有显式地去设计"意识",也就是宏观策略。而宏观策略方面的文献又存在各种各样的缺陷。作者认为宏观策略的设计,目前文献有几个不足,

  • 直接从微观的操作中学出宏观的策略,是一件很难得事情
  • 之前的文献在宏观策略上过度依赖于手工设计的公式
  • 之前的文献没有显式考虑合作

因此这篇论文提出了Hierarchical Macro Strategy,直接从微观操作学习宏观策略太难,手工设计公式太笨,不如就用监督式学习的方式学习一个策略。
在这里插入图片描述

直接上图,整个模型分成两部分,一部分是phase 预测,另一部分是attention 预测,整个attention不是平时神经网络里面那个attention,而是说,在接下来的任务中,应该把这个任务派到哪里,看个例子
在这里插入图片描述
下面这个东西就是一个attention的例子,颜色深的地方,代表更应该把你的人物派到那里,比如第一张图,法师去中路,第二张图,韩信去野区。至于亚瑟和后裔为啥去红buff那里,我也不懂。这不是低端局的操作吗。。。。

微观方面的操作,用的是和OPENAI那篇论文同样的方法,只是做了一些修改,使得他能适应王者荣耀这个游戏,比如王者荣耀是没有传送的。

微观操作中难以学出宏观策略,手工设计公式太难这两个麻烦点解决了,那就只剩一个队友间的交流了。

说了这是监督式学习,所以在训练的时候,智能体去哪里是有标签的,我们把其他四个人的标签 传给剩下的那个人去预测 attention。而测试的时候,5个人的交互则是互相传递attention。

下面是论文的实验结果,不过实验部分还有一些有趣的结论,比如AI在团战中并不占据优势,The number of kills made by AI is about 15% less than human teams. 也就是说,AI强的地方是运营,宏观策略确实起作用了。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hierarchical Bayesian models are statistical models that incorporate hierarchical structures to capture dependencies and relationships between variables at different levels. These models are widely used in various fields, including machine learning, psychology, econometrics, and more. One example of a hierarchical Bayesian model is the Bayesian Hierarchical Model for Learning Natural Scene Categories. This model aims to learn the categories of natural scenes by incorporating a hierarchical structure that captures the relationships between different levels of features, such as edges, textures, and objects. By modeling the dependencies between these features, the model can effectively learn and classify natural scene categories. Another example is Bayesian estimation in hierarchical models, which is discussed in The Oxford Handbook of Computational and Mathematical Psychology. This chapter explores how hierarchical Bayesian models can be used for estimating parameters in complex models with multiple levels of variability. By incorporating prior knowledge and hierarchical structures, these models can provide more accurate and robust parameter estimates. In econometrics, Bayesian Econometric Methods also utilize hierarchical Bayesian models. These models allow for the incorporation of prior information and hierarchical structures to estimate parameters in economic models. By considering the dependencies and relationships between variables at different levels, these models can provide more reliable and interpretable results in economic analysis. Overall, hierarchical Bayesian models provide a flexible and powerful framework for modeling complex systems and capturing dependencies between variables at different levels. They are widely used in various fields to address a wide range of statistical and modeling challenges.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值