离线强化学习(Offline RL)系列3: (算法篇) AWR(Advantage-Weighted Regression)算法详解与实现

[更新记录]

论文信息:Xue Bin Peng, Aviral Kumar, Grace Zhang, Sergey Levine: “Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning”, 2020;
xbpeng.github.io/projects/AWR/2019_AWR.pdf

本篇论文由伯克利Sergey Levine团队的Xue Bin Peng以第一作者提出,投稿到ICLR 2020和ICLR 2021,尽管都被Reject了,但是论文的观点和方法实验还是很值得学习的。

摘要:Advantage-Weighted Regression (AWR),从名字上来看,就是Advantage版本的Reward-Weighted Regression (RWR)。AWR通过对RWR进行改进,包括两个标准的监督学习步骤,一个通过利用累积奖励的回归来训练价值函数基线,另一个通过加权回归来训练策略。核心思想是将策略优化过程看成是极大似然估计问题,在策略提升过程中,用优势函数进行权重似然估计。作者在Mujoco环境中和其他算法进行了比较,展现了算法的有效性。

1、预备知识

1.1 累计奖励

J ( π ) = E τ ∼ p π ( τ ) [ ∑ t = 0 ∞ γ t r t ] = E s ∼ d π ( s ) , a ∼ π ( a ∣ s ) [ r ( s , a ) ] J(\pi)=\mathbb{E}_{\tau \sim p_{\pi}(\tau)}\left[\sum_{t=0}^{\infty} \gamma^{t} r_{t}\right]=\mathbb{E}_{\mathbf{s} \sim d_{\pi}(\mathbf{s}), a \sim \pi(\mathbf{a} \mid \mathbf{s})}[r(\mathbf{s}, \mathbf{a})] J(π)=Eτpπ(τ)[t=0γtrt]=Esdπ(s),aπ(as)[r(s,a)]
策略 π \pi π的累计奖励的期望, r ( s , a ) r(s,a) r(s,a)换成 R ( s , a ) R(s,a) R(s,a)更好。

1.2 RWR

π k + 1 = arg ⁡ max ⁡ π E s ∼ d π k ( s ) E a ∼ π k ( a ∣ s ) [ log ⁡ π ( a ∣ s ) exp ⁡ ( 1 β R s , a ) ] \pi_{k+1}=\underset{\pi}{\arg \max } \mathbb{E}_{\mathbf{s} \sim d_{\pi_{k}}(\mathbf{s})} \mathbb{E}_{\mathbf{a} \sim \pi_{k}(\mathbf{a} \mid \mathbf{s})}\left[\log \pi(\mathbf{a} \mid \mathbf{s}) \exp \left(\frac{1}{\beta} \mathcal{R}_{\mathbf{s}, \mathbf{a}}\right)\right] πk+1=πargmaxEsdπk(s)Eaπk(as)[logπ(as)exp(β1Rs,a)]
通过使用当前策略 π k \pi_k πk生成数据,新策略 π k + 1 \pi_{k+1} πk+1(使用最大似然准则下的监督学习)拟合到给定状态的动作条件分布上,加权表示后返回。

2、AWR

2.1 策略评估

策略 ( π ) (\pi) (π)相对于策略 ( μ ) (\mu) (μ)的提升用下式来表示:
η ( π ) = J ( π ) − J ( μ ) \eta(\pi)=J(\pi)-J(\mu) η(π)=J(π)J(μ)
然后进行拟合,可以写成在策略 ( π ) (\pi) (π)下进行采样,对 ( μ ) (\mu) (μ)的优势函数计算期望
η ( π ) = E s ∼ d π ( s ) E a ∼ π ( a ∣ s ) [ R s , a μ − V μ ( s ) ] \eta(\pi)=\mathbb{E}_{\mathbf{s} \sim d_{\pi}(\mathbf{s})} \mathbb{E}_{\mathbf{a} \sim \pi(\mathbf{a} \mid \mathbf{s})}\left[\mathcal{R}_{\mathrm{s}, \mathbf{a}}^{\mu}-V^{\mu}(\mathbf{s})\right] η(π)=Esdπ(s)Eaπ(as)[Rs,aμVμ(s)]

为求得约束条件下的最优策略,可以采用拉格朗日乘数法进行求解,约束条件是策略 π \pi π和策略 μ μ μ尽可能相似,利用KL散度的概念进行表示:
arg ⁡ max ⁡ π ∫ s d μ ( s ) ∫ a π ( a ∣ s ) [ R s , a μ − V μ ( s ) ] d a d s  s.t.  ∫ s d μ ( s ) D K L ( π ( ⋅ ∣ s ) ∣ ∣ μ ( ⋅ ∣ s ) ) d s ≤ ϵ \begin{aligned} \arg \max _{\pi} & \int_{\mathbf{s}} d_{\mu}(\mathbf{s}) \int_{\mathbf{a}} \pi(\mathbf{a} \mid \mathbf{s})\left[\mathcal{R}_{\mathbf{s}, \mathbf{a}}^{\mu}-V^{\mu}(\mathbf{s})\right] d \mathbf{a} d \mathbf{s} \\ & \text { s.t. } \quad \int_{\mathbf{s}} d_{\mu}(\mathbf{s}) D_{\mathrm{KL}}(\pi(\cdot \mid \mathbf{s})|| \mu(\cdot \mid \mathbf{s})) d \mathbf{s} \leq \epsilon \end{aligned} argπmax

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@RichardWang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值