AAAAI2020 绝悟AI论文笔记
Mastering Complex Control in MOBA Games with Deep Reinforcement Learning
要点:1.游戏环境:1V1环境。比5V5环境简单,更注重对英雄单体的控制。但状态和动作环境仍巨大。且为实时性
2.游戏算法的更新:1.对动作的切割。2.对PPO的改进更新
复杂的游戏环境
- 状态和操作动作的复杂度。(每局至少9000帧画面,以及100+离散的动作)
- 游戏机制为实时性
- 游戏玩法复杂:(1)动作控制的复杂性 (2)英雄之间操作的差异性
- 目标选择复杂:每局游戏目标多样化(保护目标/攻击目标多样)。
- 优质的人类先验经验较少
解决方法:1-2:制作大规模系统来进行探索
3-4:对不同的英雄操作和动作进行统一建模
5:自对弈方式
算法
- 系统构建:大规模离策略(large-scale off policy)
- 算法:多模态特征设计、A-C神经网络、多种动作策略、Dual-clip PPO
系统构建
上图为Figure 1: Overview of System Design
从左至右分别分为4个模块。
第一个模块:AI Server 自对弈发生的地方,类似A-C网络中的Actor 。与环境进行交互
第二个模块:Dispacth 对AI server传递的数据进行收集,压缩,打包,传输
第三个模块:Memory Pool 对数据进行存储,并喂给RL Learner
第四个模块:RL Learner 训练强化学习的地方,将训练好的模型通过P2P(peer to peer)网络进行模型同步。
系统特点:1.Large-scale 2.Off-policy(AI server 与 RL Learner 高度解耦)
系统运行
输入:observation / featurea
- 可观测游戏单元属性(英雄类型,生命值,蓝条等属性值)
2.当前可观测的游戏状态(经济差、游戏时间)
3.目前可观测到的局内环境图片
内部(Internal)
- 对三种输入进行编码:如game state 进行fc image 进行conv等
- LSTM
- Action mask: RL探索的前置
- Target Attention
- Actor-Critic network (policy value共享参数)
输出:hero_action
分层多标签化输出(后面输出对前面输出存在依赖关系)
eg:1.选择什么样操作:如按钮的选择 2.如何进行这样操作:如如何移动或施法
控制关系进行解耦:虽然动作存在依赖但解耦彼此控制关系,有助于简化片段,优化目标
优化目标方法:使用PPO算法
Dual-clip PPO
以上为普通PPO
当R-V<0 且比值偏移较大且>0时。得出的结果将远远小于0导致不受控制
Dual-clip ppo:
实验结果
System
40+GPU cards& 15000+ CPU cores used to train one hero
80,000 samples per second per GPU
FP16 for data transmission
Algorithm
LSTM :time step 16,unit size 1024
Discount factor 0.998
Generalized advantage estimation(GAE) :lambda 0.95
Dual-clip PPO :two clip parameters are 0.2 and 3, respectively
实验上限(最优情况,和职业选手的竞技对比)
与最顶尖的职业选手solo并采取五局三胜制
职业选手都是该类型英雄的顶级人类玩家,并使用了其代表性英雄(体现英雄多样性)
PS.貂蝉那个战绩就是和猫神打的- -
和路人王的游戏对比,测试效果鲁棒性(场次多的情况下,AI是否还能效果博群)
(发现AI只有对面英雄很注重暴击的情况下,会导致计算伤害失误而输掉比赛)
2,100 public matches( AI vs. a diversity of top human players )
Multiple heroes that require very diverse playing method
与MCTS(蒙特卡洛,即alphago使用的AI)及其变种进行对比,
对比内容:打败同一目标,谁消耗时间最短
关于ELO值的训练
关于子函数的训练
-AM: action mask
-TA: target attention
-LSTM
-Base: Full w/o AM TA LSTM
训练结果表明:AM对收敛训练时间帮助明显,TA对胜率提升明显
最终版本是在保证胜率情况下提高收敛时间
奖励设定:
(杀人奖励负值是为了平衡杀人后带来的巨大经济和经验奖励,避免AI成为杀人机器而忘记推塔)
(奖励分别为英雄血量、塔血量、金币、蓝量、死亡数、击杀数、经验奖励、补刀数)
总结
Action control of different MOBA heroes
Complex, a big challenging to AI research
Develop a super-human AI agent which has mastered the complex action control
in MOBA 1v1 games
Deep reinforcement learning framework
1、System design
2、Algorithm design
Multi-modal feature design/Actor-critic neural network
Multiple action control strategies/Dual-clip PPO