Offline RL: BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning

NIPS 2020
paper

Intro

考虑一个Deterministic MDP以及Offline dataset { s , a , s ′ , r } \{s,a,s',r\} {s,a,s,r},BAIL的核心观点认为最优策略应该满足 G ( s , a ∗ ) = V ∗ ( s ) G(s,a^*)=V*(s) G(s,a)=V(s),那自然由三步走:(1)神经网络V学习offline dataset的"upper envelope of the data".(2)选择动作让Monte Carlo的return与V一致 (3)利用模仿学习让策略近似选择的动作

Method

Upper envelope of the data

假设离线数据来自于任意策略与环境交互并以序列的形式存储。构造神经网络V近似累计回报
min ⁡ ϕ ∑ i = 1 m [ V ϕ ( s i ) − G i ] 2 + λ ∥ w ∥ 2 s . t . V ϕ ( s i ) ≥ G i = ∑ t = i T γ t − i r t , \min_{\phi}\sum_{i=1}^{m}[V_{\phi}(s_{i})-G_{i}]^{2}+\lambda\|w\|^{2}\quad s.t.\quad V_{\phi}(s_{i})\geq G_{i}=\sum_{t=i}^{T}\gamma^{t-i}r_{t}, ϕmini=1m[Vϕ(si)Gi]2+λw2s.t.Vϕ(si)Gi=t=iTγtirt,
λ 正则化的上包络始终位于所有返回之上。优化问题努力在保持正则化以防止过拟合的同时,使包络尽可能地接近数据。
在这里插入图片描述

在这里插入图片描述
基于上述定理, λ \lambda λ存在一个值提对上述优化问题提供最优泛化。本文提出将上述问题转化为无约束问题:
L K ( ϕ ) = ∑ i = 1 m ( V ϕ ( s i ) − G i ) 2 { 1 ( V ϕ ( s i ) ≥ G i ) + K ⋅ 1 ( V ϕ ( s i ) < G i ) } + λ ∥ w ∥ 2 L^K(\phi)=\sum_{i=1}^m(V_\phi(s_i)-G_i)^2\{1_{(V_\phi(s_i)\geq G_i)}+K\cdot1_{(V_\phi(s_i)<G_i)}\}+\lambda\|w\|^2 LK(ϕ)=i=1m(Vϕ(si)Gi)2{1(Vϕ(si)Gi)+K1(Vϕ(si)<Gi)}+λw2
其中K远大于1(本文取值1000)

Selecting the best actions

考虑两种方法从离线数据集中选取(s,a)。

  1. G i > x V ( s i ) G_i>xV(s_i) Gi>xV(si): 按照百分比,本文设置 x = 0.25 x=0.25 x=0.25
  2. G i ≥ V ( s i ) − x G_i\geq V(s_i)-x GiV(si)x:按具体数值

在完成收集(s,a)后采用BC方法优化策略。

  • 13
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值