RLFD: Imitation Bootstrapped Reinforcement Learnin

18 篇文章 0 订阅
2 篇文章 0 订阅

CoRR 2023
paper

视觉或向量输入下的RLFD方法,利用模仿学习得到的策略,以自举方式引导在强化学习的策略优化以及价值函数优化。同时,为了更好的表征,IBRL选取VIT-based的网络以及添加Dropout 到policy。

Method

  1. 首先利用模仿学习,通过监督学习的形式得到一个专家策略 a I L ∼ μ ψ ( s ) a^{\mathrm{IL}}\sim\mu_{\psi}(s) aILμψ(s)。然后,在线策略优化的目标为一般形式最大化Q价值函数。此时将专家策略也纳入考虑范围。
    a ∗ = arg ⁡ max ⁡ ⁡ a ∈ { a Π , a R L } Q ϕ ( s , a ) . a^{*}=\underset{a\in\{a^{\Pi},a^{\mathrm{RL}}\}}{\operatorname*{\arg\max}}Q_{\phi}(s,a). a=a{aΠ,aRL}argmaxQϕ(s,a).
  2. 在线优化Q函数时,求取target Q同样将专家策略加入:
    Q ϕ ( s t , a t ) ← r t + γ max ⁡ a ′ ∈ { a t + 1 I I . , a t + 1 R L . } Q ϕ ′ ( s t + 1 , a ′ ) Q_\phi(s_t,a_t)\leftarrow r_t+\gamma\max_{a^{\prime}\in\{a_{t+1}^{\mathrm{II.}},a_{t+1}^{\mathrm{RL.}}\}}Q_{\phi^{\prime}}(s_{t+1},a^{\prime}) Qϕ(st,at)rt+γa{at+1II.,at+1RL.}maxQϕ(st+1,a)
    其中 a t + 1 R L . a_{t+1}^{\mathrm{RL.}} at+1RL.cai来自target的策略 π θ ′ \pi_{\theta'} πθ

上述强化学习采用TD3算法作为backbone。除此外,额外采用两个trick增加算法在稀疏奖励连续控制任务的表现:1)在policy中加入dropout; 2)VIT-based的Q网络,
在这里插入图片描述
Q 采用集成模型表示,随机sample出2个网络预测值用于TD3中的Double Clip-Q。

伪代码

在这里插入图片描述

Results

1.比较不同数量的演示数据下,算法性能依旧强于对比的model-free的RLfD方法RLPD
在这里插入图片描述
对比baseline,算法性能显著。而消融实验说明两个trick的重要性
在这里插入图片描述
网络结构表征能力的消融,证明VIT-based Q在面对pixel-based的状态输入时更好
在这里插入图片描述
将模仿学习得到的策略用于在线的优化过程,提升了算法sample-efficiency
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值