Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL

ICML 2024
paper
code

Intro

大多数现有的off-policy RL 算法都无法最大限度地利用重放缓冲区中的信息,从而限制了采样效率和策略性能。在这项工作中发现根据共享的在线回放缓冲区同时训练offline RL 策略有时会优于原始的在线学习策略,但这种性能增益的发生仍不确定。这就是本文提出的OBAC,即利用新出现的性能优越的离线最优策略来改进在线策略学习。
在这里插入图片描述

Method

策略提升

  1. 对于目标策略 π \pi π依旧按照利用bellman期望算子,最小化均方bellman误差得到状态动作价值函数 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)
    arg ⁡ min ⁡ Q ϕ π E ( s , a , r , s ′ ) ∼ D [ 1 2 ( Q ϕ π ( s , a ) − T π Q ϕ π ( s , a ) ) 2 ] \arg\min_{Q_\phi^\pi}\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\left[\frac{1}{2}\left(Q_\phi^\pi(s,a)-\mathcal{T}^\pi Q_\phi^\pi(s,a)\right)^2\right] argQϕπminE(s,a,r,s)D[21(Qϕπ(s,a)TπQϕπ(s,a))2]
    然后对 Q π Q^\pi Qπ求期望得到状态价值函数 V π V^\pi Vπ
  2. 采用IQL的离线强化学习方法,得到离线最优策略的状态动作价值函数 Q μ ∗ ( s , a ) Q^{\mu^*}(s,a) Qμ(s,a)以及状态价值函数 V μ ∗ ( s ) V^{\mu^*}(s) Vμ(s)在这里插入图片描述

策略改进

策略优化即解决下列带KKT条件的优化问题
在这里插入图片描述
即当该状态下,离线策略下的价值函数优于在线策略下的价值函数时,则最小化两个策略间的分布距离。利用拉格朗日乘子法得到上述问题的闭式解为
在这里插入图片描述
实际操作中,为了避免上述无法计算的解,选择将结果限制在一组可控的高斯策略中,并通过KL散度 将改进后的策略投射到这些所需的策略中。然后,如果我们选择正则化函数 f (x) = x log x,更新后的策略目标为
在这里插入图片描述
第一种情况下就是一般的off-policy的优化方法;第二种情况下认为离线策略优于在线策略,则在off-policy的基础上添加BC正则化项。二者结合优化目标如下
在这里插入图片描述

Results

在这里插入图片描述

总结

对于ReplayBuffer中的数据重新再利用,通过离线强化学习方法学习一个最优策略的价值函数表达。

  1. 什么时候用:利用状态价值函数进行判断,当离线策略下的价值函数大于在线策略价值函数时,选择相信离线策略的质量
  2. 如何用:以约束的形式引导在线策略学习,本文就采用BC正则的方法
  • 24
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值