Offline RL:OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning

ICLR 2021
paper

Intro

本文的出发点是高效捕捉离线数据中种类繁多的行为。一种方法便是利用隐空间 z z z进行状态表征然后在其基础上扩展出新的行为 π ( a ∣ s , z ) \pi(a|s,z) π(as,z)用于下游任务。

Method

在这里插入图片描述

OPAL算法分为三各阶段
1.第一阶段利用无奖励标签数据,通过最大化对数似然函数学习Primitive policy π θ ( a ∣ s , z ) \pi_\theta(a|s,z) πθ(as,z)
min ⁡ θ , ϕ , ω J ( θ , ϕ , ω ) = E ^ τ ∼ D , z ∼ q ϕ ( z ∣ τ ) [ − ∑ t = 0 c − 1 log ⁡ π θ ( a t ∣ s t , z ) ] s.t.  E ^ τ ∼ D [ D K L ( q ϕ ( z ∣ τ ) ∣ ∣ ρ ω ( z ∣ s 0 ) ) ] ≤ ϵ K L \begin{aligned}\min_{\theta,\phi,\omega}J(\theta,\phi,\omega)&=\hat{\mathbb{E}}_{\tau\sim\mathcal{D},z\sim q_\phi(z|\tau)}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right]\\\text{s.t. }&\hat{\mathbb{E}}_{\tau\sim\mathcal{D}}[\mathrm{D}_\mathrm{KL}(q_\phi(z|\tau)||\rho_\omega(z|s_0))]\leq\epsilon_\mathrm{KL}\end{aligned} θ,ϕ,ωminJ(θ,ϕ,ω)s.t. =E^τD,zqϕ(zτ)[t=0c1logπθ(atst,z)]E^τD[DKL(qϕ(zτ)∣∣ρω(zs0))]ϵKL
KL散度约束条件保证了轨迹状态和初始状态在隐空间一致性,避免过拟合。而在实践中,则是将约束条件作为惩罚项加入到原问题,将其转化为无约束问题。
2. 第二阶段则是学习应用于下游任务的 π ψ ( z ∣ s ) \pi_\psi(z|s) πψ(zs)。这里采用 N N N个带奖励的轨迹数据集 D r = { τ i : = ( s t i , a t i , r t i ) t = 0 c − 1 } i = 1 N \mathcal{D}^{r}=\{\tau_{i}:=(s_{t}^i,a_{t}^i,r_{t}^i)_{t=0}^{c-1}\}_{i=1}^{N} Dr={τi:=(sti,ati,rti)t=0c1}i=1N,利用第一阶段的 q ϕ ( z ∣ τ ) q_\phi(z|\tau) qϕ(zτ),对轨迹数据重构得到 D h i r = { ( s 0 i , z i , ∑ t = 0 c − 1 γ t r t i , s c i ) } i = 1 N \mathcal{D}_{\mathrm{hi}}^{r}=\{(s_{0}^{i},z_{i},\sum_{t=0}^{c-1}\gamma^{t}r_{t}^{i},s_{c}^{i})\}_{i=1}^{N} Dhir={(s0i,zi,t=0c1γtrti,sci)}i=1N,基于该数据集采用任意offline RL算法(CQL)学习 π ψ ( z ∣ s ) \pi_\psi(z|s) πψ(zs)。同时,基于数据集 D l o r = { ( ( s t i , a t i ) t = 0 c − 1 , z i ) } i = 1 N \mathcal{D}_{\mathrm{lo}}^{r}=\{((s_{t}^{i},a_{t}^{i})_{t=0}^{c-1},z_{i})\}_{i=1}^{N} Dlor={((sti,ati)t=0c1,zi)}i=1N最大化对数似然函数,进一步优化primitive policy
min ⁡ θ E ^ ( τ , z ) ∼ D lo r [ − ∑ t = 0 c − 1 log ⁡ π θ ( a t ∣ s t , z ) ] \min_{\theta}\hat{\mathbb{E}}_{(\tau,z)\sim\mathcal{D}_{\text{lo}}^r}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right] θminE^(τ,z)Dlor[t=0c1logπθ(atst,z)]
3.第三阶段,便是利用 π ψ ( z ∣ s ) \pi_\psi(z|s) πψ(zs) π θ ( a ∣ s , z ) \pi_\theta(a|s,z) πθ(as,z)预测动作

  • 8
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值