论文笔记 Hierarchical Macro Strategy Model for MOBA Game AI

最新推荐文章于 2022-02-09 10:24:49 发布

Uncle_Sugar

最新推荐文章于 2022-02-09 10:24:49 发布

阅读量661

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_29278271/article/details/106484213

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Hierarchical Macro Strategy Model for MOBA Game AI

自从围棋被alpha go 解决之后，强化学习领域就把自己的注意力转向了RTS游戏，比如MOBA类游戏。OPENAI 玩dota, 腾讯自然就是玩王者荣耀。首先说说这个领域的难点。

问题复杂度高，状态空间或动作空间可以达到 $10^{20000}$
多智能体优化，因为涉及队友间的合作之类的。
信息不完全，因为存在战争迷雾
稀疏奖励以及延迟奖励，游戏结束才知道奖励。

作者还说之前的OPENAI论文缺乏对宏观策略的掌控，只懂“操作”也就是微观策略，没有显式地去设计"意识"，也就是宏观策略。而宏观策略方面的文献又存在各种各样的缺陷。作者认为宏观策略的设计，目前文献有几个不足，

直接从微观的操作中学出宏观的策略，是一件很难得事情
之前的文献在宏观策略上过度依赖于手工设计的公式
之前的文献没有显式考虑合作

因此这篇论文提出了Hierarchical Macro Strategy，直接从微观操作学习宏观策略太难，手工设计公式太笨，不如就用监督式学习的方式学习一个策略。
在这里插入图片描述

直接上图，整个模型分成两部分，一部分是phase 预测，另一部分是attention 预测，整个attention不是平时神经网络里面那个attention，而是说，在接下来的任务中，应该把这个任务派到哪里，看个例子
在这里插入图片描述
下面这个东西就是一个attention的例子，颜色深的地方，代表更应该把你的人物派到那里，比如第一张图，法师去中路，第二张图，韩信去野区。至于亚瑟和后裔为啥去红buff那里，我也不懂。这不是低端局的操作吗。。。。

微观方面的操作，用的是和OPENAI那篇论文同样的方法，只是做了一些修改，使得他能适应王者荣耀这个游戏，比如王者荣耀是没有传送的。

微观操作中难以学出宏观策略，手工设计公式太难这两个麻烦点解决了，那就只剩一个队友间的交流了。

说了这是监督式学习，所以在训练的时候，智能体去哪里是有标签的，我们把其他四个人的标签传给剩下的那个人去预测 attention。而测试的时候，5个人的交互则是互相传递attention。

下面是论文的实验结果，不过实验部分还有一些有趣的结论，比如AI在团战中并不占据优势，The number of kills made by AI is about 15% less than human teams. 也就是说，AI强的地方是运营，宏观策略确实起作用了。
在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文笔记 Hierarchical Macro Strategy Model for MOBA Game AI

Hierarchical Macro Strategy Model for MOBA Game AI自从围棋被alpha go 解决之后，强化学习领域就把自己的注意力转向了RTS游戏，比如MOBA类游戏。OPENAI 玩dota, 腾讯自然就是玩王者荣耀。首先说说这个领域的难点。问题复杂度高，状态空间或动作空间可以达到102000010^{20000}1020000多智能体优化，因为涉及队友间的合作之类的。信息不完全，因为存在战争迷雾稀疏奖励以及延迟奖励，游戏结束才知道奖励。作者还说之前的O
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。