离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BRAC算法原理详解与实现(经验篇)

置顶

@RichardWang

已于 2022-04-06 17:20:53 修改

阅读量2.1k

点赞数 2

分类专栏：离线强化学习系列博客文章标签：离线强化学习 BRAC Offline RL BEAR BCQ

于 2022-04-06 17:20:37 首次发布

本文链接：https://blog.csdn.net/gsww404/article/details/123994998

版权

论文原文：【Yifan Wu, George Tucker, Ofir Nachum: “Behavior Regularized Offline Reinforcement Learning”, 2019; arXiv:1911.11361】

本文是CMU和Google Research一起合作于2019年提出并发表在ICLR会议上，是一篇广泛的研究了BCQ和BEAR两个算法的优劣之后总结性工作，算法全称： Behavior Regularized ActorCritic (BRAC)（有点综述实验的味道，和之前的Deep reinforcement learning that matters很像）

摘要：BCQ算法通过添加VAE和扰动网络使得学习策略尽可能的靠近行为策略，BEAR算法提出来支撑集进一步优化学习策略，两者的相同点是都用了 ensemble Q-value函数，其中 BCQ的 $k = 2$ , BEAR 的 $k = 4$ ，另外他们都使用了regularized learned policy来解决一些un-seen的state-action对(OOD)。
本文作者通过VP（value penalty）和PR（policy regularization 两种方式来提高算法的效率。并在此技术上讨论了诸如regularization weight、Divergence for regularization以及超参数选择等6方面的内容，论文做了大量的实验（一如既往的Google风格），结论是： （1）加权目标Q值集合和自适应正则化系数是不必要的；（2）价值惩罚（VP）的使用略优于策略正则化（PR），而许多可能的分歧(KL，MMD，Wass Dis)可以达到类似的性能。也许在这些离线设置中最重要的区别是是否使用了适当的超参数。

2. BRAC方法

作者首先回顾了BCQ和BEAR两种算法，其中BEAR算法使用了软更新的方式防止过估计(overestimate)问题（这里的 $\psi_{j}^{\prime}$ 表示目标Q函数的软更新集合， $k = 4$ ）

$\bar{Q}\left(s^{\prime}, a^{\prime}\right):=0.75 \cdot \min _{j=1, \ldots, k} Q_{\psi_{j}^{\prime}}\left(s^{\prime}, a^{\prime}\right)+0.25 \cdot \max _{j=1, \ldots, k} Q_{\psi_{j}^{\prime}}\left(s^{\prime}, a^{\prime}\right)$

另外分析了BCQ更新学习策略的过程如下：

$\pi_{\theta}(a \mid s):=\underset{a_{i}+\xi_{\theta}\left(s, a_{i}\right)}{\operatorname{argmax}} Q_{\psi}\left(s, a_{i}+\xi_{\theta}\left(s, a_{i}\right)\right) \quad \text { for } a_{i} \sim \pi_{b}(a \mid s), i=1, \ldots, N$