Learning From Video DRL &&OpenAI Five

Overcoming sparse rewards in Deep RL: Curiosity, hindsight & auxiliary tasks

Sparse rewards

比较离散的reward signal,也就是说,在玩儿一些特定游戏的时候无法确定是否通过一个reward就能明确判断结果的输赢。也就是说需要连续的决策动作序列才能到达成功的情况。如下图所示:
在这里插入图片描述

Reinforcement Learning with Unsupervised Auxiliary Tasks

Pixel Control

在这里插入图片描述
Policy is then trained to maximize the total visual change in all the grids.
Force the feature extractor to become sensitive to the general dynamics in the game environment.

Reward Prediction

在这里插入图片描述
Three recent frames from the episode sequence to predict the reward that will get from next step.

Value Function Replay

在这里插入图片描述
Estimate the value of being in a current state by predicting the total future reward(like DQN).


Curiosity-driven Exploration by Self-supervised Prediction

Standard way to avoid the agent don’t want to explore more reward----using forward model(Model based RL).
Using a forward model to predict the latent representation.
As a feedback signal to incentivize your agent to explore unseen regions.
The agent is not aware that there are some parts of the environment that is simply cannot control or predict.
在这里插入图片描述
As you can see, ϕ ( s t + 1 ) \phi(s_{t+1}) ϕ(st+1) is actually use s t + 1 s_{t+1} st+1 from the same features; and ϕ ^ ( s t + 1 ) \hat{\phi}(s_{t+1}) ϕ^(st+1) is using a t a_t at and ϕ ( s t ) \phi(s_t) ϕ(st) from forward model to predict the future, and get the reward signal as the future reward.


Hindsight Experience Replay

在这里插入图片描述
在这里插入图片描述
做出的改变是将其中错误的transition依然存入experience replay buffer,所以在下次换了goal之后依然可以很快速的得到正确的结果


OpenAI Five

介绍

它使用的是运行在256个gpu和12.8万个CPU内核上的扩展版PPO算法——这是我们去年为玩简单得多的单人版本而构建的系统的更大版本。为每个英雄使用单独的LSTM,而不使用人工数据,它可以学习可识别的策略。这表明强化学习可以产生长期规划,规模大但可以实现,与开始项目时的预期相反。

所遇问题

长期视野

大部分动作,比如移动玩家位置,对玩家的策略影响不大,但有一些策略比如回城卷轴,还是会对玩家造成一定的影响,而且还有可能一直影响下去。而且产生动作较多,大概有2万 steps。而Chess有40 steps,,GO有150 steps。

部分可见的state

因为有迷雾的存在,所以会存在一些state是不可见的,而Chess和GO针对的都是全信息游戏。

高维连续动作空间

每个英雄大概有17万的动作空间,每个tick大概有1000次左右的有效动作

高维连续观察空间

可以获取到2000个代表人能获取到的所有信息(大多数是浮点数信息)。A chess board is naturally represented as about 70 enumeration values (a 8x8 board of 6 piece types and minor historical info); a Go board as about 400 enumeration values (a 19x19 board of 2 piece types plus Ko).

方法

  1. 使用大规模版本的PPT算法,用随机参数启动而不使用利用人类经验重放的搜索和bootstrap。
  2. 另外,使用Observe and Look Further中的方法可以将reward半衰期延长至46秒。PPO为0.5秒,Rainbow为4.4秒。
  3. 每个网络都包含一个单层的1024单元LSTM,它可以看到当前的游戏状态(从Valve的Bot API中提取),并通过几个可能的动作头发出动作。每个头都有语义含义,例如,延迟该动作的节拍数、选择哪个动作、该动作在单元周围网格中的X或Y坐标等。

探索

  1. 使用一些限制条件来降低探索环境的复杂程度
    1. 双方英雄都是 死灵法、火枪、毒龙、冰女和巫妖 的阵容
    2. 禁止插眼
    3. 禁止打肉山
    4. 禁止隐身(消耗品或相关装备)
    5. 禁止召唤物和幻象
    6. 禁止购买 圣剑、魔瓶、补刀斧、飞鞋、经验书、凝魂之泪
    7. 每方5个永久无敌的信使(鸡),但不能利用它们进行侦察或者当作随身箱子(即只能用于往返运输物品)
  2. 采用self-play,80%自对抗,20%和past对抗;几小时之后学会了带线,带经济;几天之后学会了抓人,推塔,开大
  3. 随机机制,我们随机“分配”每个英雄到一些小路上,并惩罚它偏离这些小路,直到在游戏中随机选择的时间
  4. 通过设置reward的方式进行探索:我们通过减去另一个团队的平均报酬来处理每个代理的报酬,以防止代理发现正和情况

合作机制

没有明确的交流通道,通过控制一个“team spirit”的超参数,从而控制每个英雄自己的reward和团队总体的reward的比重

Rapid

在这里插入图片描述

  • Rollout Workers是训练使用的部分,主要使用的是GPU
  • Eval Workders主要是使用CPU进行验证估值
  • 参数的data大小是58MB,异步的延迟针对不同数量的GPU,如下图所示
    在这里插入图片描述

和人类玩家的不同

  1. OpenAI Five可以访问与人类相同的信息,但会立即看到位置、健康状况和物品清单等人类必须手动检查的数据。我们的方法与观察状态无关,但是仅仅渲染游戏中的像素就需要数千个gpu。
  2. OpenAI 5平均每分钟150-170个动作(由于每4帧都要观察,理论上的最大值是450个),又因为延迟的原因,所以环境是相对公平的。

Surprising findings

  1. 多种奖励机制确实对训练有帮助,可以打败更高等级的敌人
  2. 可以学习到Creep blocking无需使用任何额外的操作
  3. 还有许多bugs但是已经可以超过人类了

The Dota 2 AI framework

在这里插入图片描述
使用一个基于LUA的沙盒,面向Dota2的接口进行编程
从而只需要将自己建立好的外部的External Controller利用HTTP和JSON的方法与LUA进行对接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值