Learning From Video DRL &&OpenAI Five

最新推荐文章于 2021-11-10 15:56:05 发布

JasonSparrow_1

最新推荐文章于 2021-11-10 15:56:05 发布

阅读量312

点赞数

分类专栏： Video 文章标签： DRL

本文链接：https://blog.csdn.net/JasonSparrow_1/article/details/89504602

版权

Video 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Overcoming sparse rewards in Deep RL: Curiosity, hindsight & auxiliary tasks

Sparse rewards

比较离散的reward signal，也就是说，在玩儿一些特定游戏的时候无法确定是否通过一个reward就能明确判断结果的输赢。也就是说需要连续的决策动作序列才能到达成功的情况。如下图所示：
在这里插入图片描述

Reinforcement Learning with Unsupervised Auxiliary Tasks

Pixel Control

在这里插入图片描述
Policy is then trained to maximize the total visual change in all the grids.
Force the feature extractor to become sensitive to the general dynamics in the game environment.

Reward Prediction

在这里插入图片描述
Three recent frames from the episode sequence to predict the reward that will get from next step.

Value Function Replay

在这里插入图片描述
Estimate the value of being in a current state by predicting the total future reward(like DQN).

Curiosity-driven Exploration by Self-supervised Prediction

Standard way to avoid the agent don’t want to explore more reward----using forward model(Model based RL).
Using a forward model to predict the latent representation.
As a feedback signal to incentivize your agent to explore unseen regions.
The agent is not aware that there are some parts of the environment that is simply cannot control or predict.
在这里插入图片描述
As you can see, $\phi(s_{t+1})$ is actually use $s_{t+1}$ from the same features; and $\hat{\phi}(s_{t+1})$ is using $a_t$ and $\phi(s_t)$ from forward model to predict the future, and get the reward signal as the future reward.

Hindsight Experience Replay

在这里插入图片描述

做出的改变是将其中错误的transition依然存入experience replay buffer，所以在下次换了goal之后依然可以很快速的得到正确的结果

OpenAI Five

介绍

它使用的是运行在256个gpu和12.8万个CPU内核上的扩展版PPO算法——这是我们去年为玩简单得多的单人版本而构建的系统的更大版本。为每个英雄使用单独的LSTM，而不使用人工数据，它可以学习可识别的策略。这表明强化学习可以产生长期规划，规模大但可以实现，与开始项目时的预期相反。

所遇问题

长期视野

大部分动作，比如移动玩家位置，对玩家的策略影响不大，但有一些策略比如回城卷轴，还是会对玩家造成一定的影响，而且还有可能一直影响下去。而且产生动作较多，大概有2万 steps。而Chess有40 steps,，GO有150 steps。

部分可见的state

因为有迷雾的存在，所以会存在一些state是不可见的，而Chess和GO针对的都是全信息游戏。

高维连续动作空间

每个英雄大概有17万的动作空间，每个tick大概有1000次左右的有效动作

高维连续观察空间

可以获取到2000个代表人能获取到的所有信息(大多数是浮点数信息)。A chess board is naturally represented as about 70 enumeration values (a 8x8 board of 6 piece types and minor historical info); a Go board as about 400 enumeration values (a 19x19 board of 2 piece types plus Ko).

方法

使用大规模版本的PPT算法，用随机参数启动而不使用利用人类经验重放的搜索和bootstrap。
另外，使用Observe and Look Further中的方法可以将reward半衰期延长至46秒。PPO为0.5秒，Rainbow为4.4秒。
每个网络都包含一个单层的1024单元LSTM，它可以看到当前的游戏状态(从Valve的Bot API中提取)，并通过几个可能的动作头发出动作。每个头都有语义含义，例如，延迟该动作的节拍数、选择哪个动作、该动作在单元周围网格中的X或Y坐标等。

探索

使用一些限制条件来降低探索环境的复杂程度
1. 双方英雄都是死灵法、火枪、毒龙、冰女和巫妖的阵容
2. 禁止插眼
3. 禁止打肉山
4. 禁止隐身（消耗品或相关装备）
5. 禁止召唤物和幻象
6. 禁止购买圣剑、魔瓶、补刀斧、飞鞋、经验书、凝魂之泪
7. 每方5个永久无敌的信使（鸡），但不能利用它们进行侦察或者当作随身箱子(即只能用于往返运输物品)
采用self-play，80%自对抗，20%和past对抗；几小时之后学会了带线，带经济；几天之后学会了抓人，推塔，开大
随机机制，我们随机“分配”每个英雄到一些小路上，并惩罚它偏离这些小路，直到在游戏中随机选择的时间
通过设置reward的方式进行探索：我们通过减去另一个团队的平均报酬来处理每个代理的报酬，以防止代理发现正和情况

合作机制

没有明确的交流通道，通过控制一个“team spirit”的超参数，从而控制每个英雄自己的reward和团队总体的reward的比重

Rapid

在这里插入图片描述

Rollout Workers是训练使用的部分，主要使用的是GPU
Eval Workders主要是使用CPU进行验证估值
参数的data大小是58MB，异步的延迟针对不同数量的GPU，如下图所示

和人类玩家的不同

OpenAI Five可以访问与人类相同的信息，但会立即看到位置、健康状况和物品清单等人类必须手动检查的数据。我们的方法与观察状态无关，但是仅仅渲染游戏中的像素就需要数千个gpu。
OpenAI 5平均每分钟150-170个动作(由于每4帧都要观察，理论上的最大值是450个)，又因为延迟的原因，所以环境是相对公平的。

Surprising findings

多种奖励机制确实对训练有帮助，可以打败更高等级的敌人
可以学习到Creep blocking无需使用任何额外的操作
还有许多bugs但是已经可以超过人类了

The Dota 2 AI framework

在这里插入图片描述
使用一个基于LUA的沙盒，面向Dota2的接口进行编程
从而只需要将自己建立好的外部的External Controller利用HTTP和JSON的方法与LUA进行对接

JasonSparrow_1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Learning From Video DRL &&OpenAI Five

Overcoming sparse rewards in Deep RL: Curiosity, hindsight & auxiliary tasksSparse rewards比较离散的reward signal，也就是说，在玩儿一些特定游戏的时候无法确定是否通过一个reward就能明确判断结果的输赢。也就是说需要连续的决策动作序列才能到达成功的情况。如下图所示：Reinfor...
复制链接

扫一扫

专栏目录