AAAAI2020 绝悟AI论文笔记

这篇博客介绍了如何使用深度强化学习(DRL)来解决多人在线战斗竞技游戏(MOBA)中复杂的控制问题。研究者通过大规模离策略系统和改进的PPO算法(Dual-clip PPO)训练AI,使其能掌握1V1游戏中的英雄操作。实验表明,这种方法能够生成超人类水平的AI代理,能够在不同英雄和各种游戏场景下表现出色。此外,研究还探讨了行动掩码和目标注意力等技术对训练效率和胜率的影响。
摘要由CSDN通过智能技术生成

AAAAI2020 绝悟AI论文笔记

Mastering Complex Control in MOBA Games with Deep Reinforcement Learning

要点:1.游戏环境:1V1环境。比5V5环境简单,更注重对英雄单体的控制。但状态和动作环境仍巨大。且为实时性
2.游戏算法的更新:1.对动作的切割。2.对PPO的改进更新

复杂的游戏环境

  1. 状态和操作动作的复杂度。(每局至少9000帧画面,以及100+离散的动作)
  2. 游戏机制为实时性
  3. 游戏玩法复杂:(1)动作控制的复杂性 (2)英雄之间操作的差异性
  4. 目标选择复杂:每局游戏目标多样化(保护目标/攻击目标多样)。
  5. 优质的人类先验经验较少

解决方法:1-2:制作大规模系统来进行探索
3-4:对不同的英雄操作和动作进行统一建模
5:自对弈方式

算法

  1. 系统构建:大规模离策略(large-scale off policy)
  2. 算法:多模态特征设计、A-C神经网络、多种动作策略、Dual-clip PPO

系统构建

Figure 1: Overview of   System Design
上图为Figure 1: Overview of System Design

从左至右分别分为4个模块。
第一个模块:AI Server 自对弈发生的地方,类似A-C网络中的Actor 。与环境进行交互
第二个模块:Dispacth 对AI server传递的数据进行收集,压缩,打包,传输
第三个模块:Memory Pool 对数据进行存储,并喂给RL Learner
第四个模块:RL Learner 训练强化学习的地方,将训练好的模型通过P2P(peer to peer)网络进行模型同步。

系统特点:1.Large-scale 2.Off-policy(AI server 与 RL Learner 高度解耦)

系统运行

在这里插入图片描述
输入:observation / featurea

  1. 可观测游戏单元属性(英雄类型,生命值,蓝条等属性值)
    2.当前可观测的游戏状态(经济差、游戏时间)
    3.目前可观测到的局内环境图片

内部(Internal)

  1. 对三种输入进行编码:如game state 进行fc image 进行conv等
  2. LSTM
  3. Action mask: RL探索的前置
  4. Target Attention
  5. Actor-Critic network (policy value共享参数)

输出:hero_action
分层多标签化输出(后面输出对前面输出存在依赖关系)
eg:1.选择什么样操作:如按钮的选择 2.如何进行这样操作:如如何移动或施法
控制关系进行解耦:虽然动作存在依赖但解耦彼此控制关系,有助于简化片段,优化目标

优化目标方法:使用PPO算法

Dual-clip PPO

在这里插入图片描述
以上为普通PPO在这里插入图片描述

当R-V<0 且比值偏移较大且>0时。得出的结果将远远小于0导致不受控制

Dual-clip ppo:
在这里插入图片描述
在这里插入图片描述

实验结果

System
40+GPU cards& 15000+ CPU cores used to train one hero
80,000 samples per second per GPU
FP16 for data transmission

Algorithm
LSTM :time step 16,unit size 1024
Discount factor 0.998
Generalized advantage estimation(GAE) :lambda 0.95
Dual-clip PPO :two clip parameters are 0.2 and 3, respectively

实验上限(最优情况,和职业选手的竞技对比)
在这里插入图片描述
与最顶尖的职业选手solo并采取五局三胜制
职业选手都是该类型英雄的顶级人类玩家,并使用了其代表性英雄(体现英雄多样性)
PS.貂蝉那个战绩就是和猫神打的- -

和路人王的游戏对比,测试效果鲁棒性(场次多的情况下,AI是否还能效果博群)
(发现AI只有对面英雄很注重暴击的情况下,会导致计算伤害失误而输掉比赛)
在这里插入图片描述
2,100 public matches( AI vs. a diversity of top human players )
Multiple heroes that require very diverse playing method

与MCTS(蒙特卡洛,即alphago使用的AI)及其变种进行对比,
对比内容:打败同一目标,谁消耗时间最短
在这里插入图片描述
关于ELO值的训练
在这里插入图片描述
关于子函数的训练
在这里插入图片描述
-AM: action mask
-TA: target attention
-LSTM
-Base: Full w/o AM TA LSTM
训练结果表明:AM对收敛训练时间帮助明显,TA对胜率提升明显
最终版本是在保证胜率情况下提高收敛时间

奖励设定:
(杀人奖励负值是为了平衡杀人后带来的巨大经济和经验奖励,避免AI成为杀人机器而忘记推塔)
(奖励分别为英雄血量、塔血量、金币、蓝量、死亡数、击杀数、经验奖励、补刀数)

在这里插入图片描述

总结

Action control of different MOBA heroes
Complex, a big challenging to AI research

Develop a super-human AI agent which has mastered the complex action control
in MOBA 1v1 games

Deep reinforcement learning framework
1、System design
2、Algorithm design
Multi-modal feature design/Actor-critic neural network
Multiple action control strategies/Dual-clip PPO

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值