离线强化学习(Offline RL)系列3: (算法篇) AWR(Advantage-Weighted Regression)算法详解与实现

置顶

@RichardWang

已于 2022-04-20 22:44:21 修改

阅读量3k

点赞数 1

分类专栏：离线强化学习系列博客文章标签：离线强化学习 Offline RL OfflineRL AWR算法 BCQ

于 2022-04-17 13:08:48 首次发布

本文链接：https://blog.csdn.net/gsww404/article/details/124228206

版权

[更新记录]

论文信息：Xue Bin Peng, Aviral Kumar, Grace Zhang, Sergey Levine: “Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning”, 2020;
xbpeng.github.io/projects/AWR/2019_AWR.pdf

本篇论文由伯克利Sergey Levine团队的Xue Bin Peng以第一作者提出，投稿到ICLR 2020和ICLR 2021，尽管都被Reject了，但是论文的观点和方法实验还是很值得学习的。

摘要：Advantage-Weighted Regression (AWR)，从名字上来看，就是Advantage版本的Reward-Weighted Regression (RWR)。AWR通过对RWR进行改进，包括两个标准的监督学习步骤，一个通过利用累积奖励的回归来训练价值函数基线，另一个通过加权回归来训练策略。核心思想是将策略优化过程看成是极大似然估计问题，在策略提升过程中，用优势函数进行权重似然估计。作者在Mujoco环境中和其他算法进行了比较，展现了算法的有效性。

1、预备知识

1.1 累计奖励

$J(\pi)=\mathbb{E}_{\tau \sim p_{\pi}(\tau)}\left[\sum_{t=0}^{\infty} \gamma^{t} r_{t}\right]=\mathbb{E}_{\mathbf{s} \sim d_{\pi}(\mathbf{s}), a \sim \pi(\mathbf{a} \mid \mathbf{s})}[r(\mathbf{s}, \mathbf{a})]$
策略 $\pi$ 的累计奖励的期望， $r (s, a)$ 换成 $R (s, a)$ 更好。

1.2 RWR

$\pi_{k+1}=\underset{\pi}{\arg \max } \mathbb{E}_{\mathbf{s} \sim d_{\pi_{k}}(\mathbf{s})} \mathbb{E}_{\mathbf{a} \sim \pi_{k}(\mathbf{a} \mid \mathbf{s})}\left[\log \pi(\mathbf{a} \mid \mathbf{s}) \exp \left(\frac{1}{\beta} \mathcal{R}_{\mathbf{s}, \mathbf{a}}\right)\right]$
通过使用当前策略 $\pi_k$ 生成数据，新策略 $\pi_{k+1}$ （使用最大似然准则下的监督学习）拟合到给定状态的动作条件分布上，加权表示后返回。

2、AWR

2.1 策略评估

策略 $(\pi)$ 相对于策略 $(\mu)$ 的提升用下式来表示：
$\eta(\pi)=J(\pi)-J(\mu)$
然后进行拟合，可以写成在策略 $(\pi)$ 下进行采样，对 $(\mu)$ 的优势函数计算期望
$\eta(\pi)=\mathbb{E}_{\mathbf{s} \sim d_{\pi}(\mathbf{s})} \mathbb{E}_{\mathbf{a} \sim \pi(\mathbf{a} \mid \mathbf{s})}\left[\mathcal{R}_{\mathrm{s}, \mathbf{a}}^{\mu}-V^{\mu}(\mathbf{s})\right]$

为求得约束条件下的最优策略，可以采用拉格朗日乘数法进行求解，约束条件是策略 $\pi$ 和策略 $μ$ 尽可能相似，利用KL散度的概念进行表示：
$\begin{aligned} \arg \max _{\pi} & \int_{\mathbf{s}} d_{\mu}(\mathbf{s}) \int_{\mathbf{a}} \pi(\mathbf{a} \mid \mathbf{s})\left[\mathcal{R}_{\mathbf{s}, \mathbf{a}}^{\mu}-V^{\mu}(\mathbf{s})\right] d \mathbf{a} d \mathbf{s} \\ & \text { s.t. } \quad \int_{\mathbf{s}} d_{\mu}(\mathbf{s}) D_{\mathrm{KL}}(\pi(\cdot \mid \mathbf{s})|| \mu(\cdot \mid \mathbf{s})) d \mathbf{s} \leq \epsilon \end{aligned}$