Improving Exploration in Evolution Strategies for DRL via a Population of Novelty-Seeking Agents

最新推荐文章于 2022-12-28 17:47:17 发布

HoJ Ray

最新推荐文章于 2022-12-28 17:47:17 发布

阅读量300

点赞数

分类专栏： DRL文章阅读笔记文章标签：强化学习

本文链接：https://blog.csdn.net/qq_19005887/article/details/106308351

版权

DRL文章阅读笔记专栏收录该内容

10 篇文章 4 订阅

订阅专栏

Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

文章来自Uber AI Labs，主要通过在Evolution Strategies(ES)算法中引入 Novelty Search(NS)算法和 Quality Diversity(QD)算法来解决RL任务中的探索问题。

Contribution:
1）将进化策略算法ES与新颖性搜索NS相结合，提出了三个新算法，即NS-ES，NSR-ES，NSRA-ES，有效提升了ES算法的探索能力。
2）讨论了NS-ES，NSR-ES，NSRA-ES 与 ES之间的性能优劣。

（ps：NS-ES，NSR-ES，NSRA-ES都用了NS，而只有后两个NSR-ES，NSRA-ES才用QD，因为他们考虑了quality/performance，即奖励R）

Code: https://github.com/uber-research/deep-neuroevolution

下面介绍作者如何从ES算法一步步改进并得出这三个算法。

ES

ES是个黑箱优化器，无需计算目标函数的梯度即可优化目标函数。ES另一个特点是高度并行运算能力，其运行速度随着CPU数量的增加而呈线性加速。尽管RL也有并行算法(如A3C)，但并行能力不强，比如在同样的CPU核数，同样的神经网络结构下，A3C用了24小时达到的性能，ES只用了1小时。

直观地理解ES就是，给出一个策略 $\pi_\theta$ ，为了最大化适应度函数 $f$ ，将噪声 $\epsilon$ 加入策略的参数 $\theta$ 中进行变异，得到 $n$ 个不同的策略，然后让每个策略在任务中跑一跑，得到的奖励作为适应度函数 $f$ 的数值，然后看哪个策略得到的奖励多，或者说对适应度函数的贡献大，就往哪个策略的方向多更新一点。

ES的参数更新量为：

NS-ES

这个算法是在ES的基础上引入了novelty概念，它的计算公式如下：

其中 $b(\pi_\theta)$ 是策略 $\pi_\theta$ 的behavior characterization，它能反应该策略的行为特征，如在导航任务中，机器人当前的地图坐标即可作为 $b(\pi_\theta)$ ； $A$ 是储存不同策略的 $b(\pi_\theta)$ 的buffer。

从novelty的计算公式可以看出，一个策略的新颖性等于该策略的行为特征与其最近的 $k$ 个策略的行为特征之间的距离的平均值。

NS-ES的参数更新量为：

可以看出，到现在为止，这个更新公式与ES的不同之处在于只是将ES中关注任务奖励的适应度函数 $f$ 改为新颖性函数而已。这么一改，则将该算法的目标导向变成了越是新颖的行为就越值得鼓励，而不是关注得到奖励与否。这个是单个 Agent 的 NS-ES 算法，而文中为了充分利用 population-based exploration 的优势，使用的是一个种群的 Agent。所以，还要进一步更改。

思想是，初始化 M 个Agent 为 $\{\theta^1, \theta^2, ... , \theta^m\}$ ，然后从中选择一个 Agent 来重复上面的更新过程。选择的办法是，新颖性高的策略有更高的概率被选中，公式如下 (eq.1)：

所以 NS-ES 的最终参数更新公式为：

算法伪代码(其中的 eq.1 就是 (eq.1))：

NSR-ES

NSR-ES 比 NS-ES 多了一个R，即除了考虑新颖性之外，还考虑了任务奖励 R。

NSR-ES的参数更新公式为：

可以看出该公式，只比NS-ES的多了一个 $f$ ，且霸气地直接让新颖性与任务奖励取了个平均。

算法伪代码：

NSRA-ES

NSRA-ES 的全称是 NSRAdapt-ES，即 NSR-ES 的一个变种，改变的仅仅是将 NSR-ES 中新颖性与任务奖励的均值配比改为自动配比。

NSRA-ES的参数更新公式为：

这么一改之后，在迭代中如果 Agent 更新后获得的奖励越来越多，那么就暂时不用去探索新颖性了，应降低新颖性的比重；然而，在一定的回合之后，Agent 不小心进入了local optimum之中了，那么奖励并不会随着参数的迭代更新而变得越来越多，这时候就要增加新颖性比重，探索新的方向，以便突破局部最优陷阱。

那么 $\omega$ 的值怎么取的呢？请看下面的伪代码：

ps：上面NSRA-ES的参数更新公式中 $\omega$ 的位置与下面伪代码的更新公式 line 19 中 $\omega$ 的位置居然是相反的，但是他们两者都是在原文中找的。然而根据逻辑关系，能够推出这个伪代码中 line 19 的公式应该是不正确的，而改为 $\omega$ 与 $f$ 相乘：

这样，下面的逻辑就通畅了：

从line 22 开始，如果更新后的策略表现得比以往最好的策略更好，那么， $\omega$ 将会增加(line 23)，则任务奖励的比重大，新颖性比重小。
如果更新后的策略不比之前的好，则 $t_{best}$ 计数增加，而当该计数达到一定程度时， $\omega$ 将会减小(line 30)，则任务奖励的比重小，新颖性比重大，更重视搜索新策略。