AAAAI2020 绝悟AI论文笔记

AAAAI2020 绝悟AI论文笔记

Mastering Complex Control in MOBA Games with Deep Reinforcement Learning

要点:1.游戏环境:1V1环境。比5V5环境简单,更注重对英雄单体的控制。但状态和动作环境仍巨大。且为实时性
2.游戏算法的更新:1.对动作的切割。2.对PPO的改进更新

复杂的游戏环境

  1. 状态和操作动作的复杂度。(每局至少9000帧画面,以及100+离散的动作)
  2. 游戏机制为实时性
  3. 游戏玩法复杂:(1)动作控制的复杂性 (2)英雄之间操作的差异性
  4. 目标选择复杂:每局游戏目标多样化(保护目标/攻击目标多样)。
  5. 优质的人类先验经验较少

解决方法:1-2:制作大规模系统来进行探索
3-4:对不同的英雄操作和动作进行统一建模
5:自对弈方式

算法

  1. 系统构建:大规模离策略(large-scale off policy)
  2. 算法:多模态特征设计、A-C神经网络、多种动作策略、Dual-clip PPO

系统构建

Figure 1: Overview of   System Design
上图为Figure 1: Overview of System Design

从左至右分别分为4个模块。
第一个模块:AI Server 自对弈发生的地方,类似A-C网络中的Actor 。与环境进行交互
第二个模块:Dispacth 对AI server传递的数据进行收集,压缩,打包,传输
第三个模块:Memory Pool 对数据进行存储,并喂给RL Learner
第四个模块:RL Learner 训练强化学习的地方,将训练好的模型通过P2P(peer to peer)网络进行模型同步。

系统特点:1.Large-scale 2.Off-policy(AI server 与 RL Learner 高度解耦)

系统运行

在这里插入图片描述
输入:observation / featurea

  1. 可观测游戏单元属性(英雄类型,生命值,蓝条等属性值)
    2.当前可观测的游戏状态(经济差、游戏时间)
    3.目前可观测到的局内环境图片

内部(Internal)

  1. 对三种输入进行编码:如game state 进行fc image 进行conv等
  2. LSTM
  3. Action mask: RL探索的前置
  4. Target Attention
  5. Actor-Critic network (policy value共享参数)

输出:hero_action
分层多标签化输出(后面输出对前面输出存在依赖关系)
eg:1.选择什么样操作:如按钮的选择 2.如何进行这样操作:如如何移动或施法
控制关系进行解耦:虽然动作存在依赖但解耦彼此控制关系,有助于简化片段,优化目标

优化目标方法:使用PPO算法

Dual-clip PPO

在这里插入图片描述
以上为普通PPO在这里插入图片描述

当R-V<0 且比值偏移较大且>0时。得出的结果将远远小于0导致不受控制

Dual-clip ppo:
在这里插入图片描述
在这里插入图片描述

实验结果

System
40+GPU cards& 15000+ CPU cores used to train one hero
80,000 samples per second per GPU
FP16 for data transmission

Algorithm
LSTM :time step 16,unit size 1024
Discount factor 0.998
Generalized advantage estimation(GAE) :lambda 0.95
Dual-clip PPO :two clip parameters are 0.2 and 3, respectively

实验上限(最优情况,和职业选手的竞技对比)
在这里插入图片描述
与最顶尖的职业选手solo并采取五局三胜制
职业选手都是该类型英雄的顶级人类玩家,并使用了其代表性英雄(体现英雄多样性)
PS.貂蝉那个战绩就是和猫神打的- -

和路人王的游戏对比,测试效果鲁棒性(场次多的情况下,AI是否还能效果博群)
(发现AI只有对面英雄很注重暴击的情况下,会导致计算伤害失误而输掉比赛)
在这里插入图片描述
2,100 public matches( AI vs. a diversity of top human players )
Multiple heroes that require very diverse playing method

与MCTS(蒙特卡洛,即alphago使用的AI)及其变种进行对比,
对比内容:打败同一目标,谁消耗时间最短
在这里插入图片描述
关于ELO值的训练
在这里插入图片描述
关于子函数的训练
在这里插入图片描述
-AM: action mask
-TA: target attention
-LSTM
-Base: Full w/o AM TA LSTM
训练结果表明:AM对收敛训练时间帮助明显,TA对胜率提升明显
最终版本是在保证胜率情况下提高收敛时间

奖励设定:
(杀人奖励负值是为了平衡杀人后带来的巨大经济和经验奖励,避免AI成为杀人机器而忘记推塔)
(奖励分别为英雄血量、塔血量、金币、蓝量、死亡数、击杀数、经验奖励、补刀数)

在这里插入图片描述

总结

Action control of different MOBA heroes
Complex, a big challenging to AI research

Develop a super-human AI agent which has mastered the complex action control
in MOBA 1v1 games

Deep reinforcement learning framework
1、System design
2、Algorithm design
Multi-modal feature design/Actor-critic neural network
Multiple action control strategies/Dual-clip PPO

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值