O2O:Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning

20 篇文章 0 订阅
16 篇文章 0 订阅

3rd Offline Reinforcement Learning Workshop at Neural Information Processing Systems, 2022.
paper

Intro

通过对TD3-BC 中的BC正则化项系数进行调整,使得算法在实现O2O时有更好的表现。

Method

Offline

对于离线阶段的TD3+BC,策略优化目标为:
π = arg ⁡ max ⁡ π E ( s , a ) ∼ D [ Q ( s , π ( s ) ) ⏟ R L − α ( π ( s ) − a ) 2 ⏟ B C ] . \pi=\arg\max_{\pi}\mathbb{E}_{(s,a)\sim D}\Big[\underbrace{Q(s,\pi(s))}_{RL}-\alpha\underbrace{(\pi(s)-a)^2}_{BC}\Big]. π=argπmaxE(s,a)D[RL Q(s,π(s))αBC (π(s)a)2].
其中当数据为次优时,BC项容易导致策略优化崩溃。文章指出 α \alpha α过低不能防止过估计问题存在,而较高的值会导致策略泛化能力差,使得策略表现仅限于数据集。本文提出方法,先使用 α \alpha α进行训练,然后对该值进行缩放 α ′ = α λ , λ ≥ 1 \alpha' = \frac{\alpha}{\lambda}, \lambda\geq1 α=λα,λ1

Online Fine-tuning

在现阶段一种选择是简单地删除离线学习期间施加的 BC 约束。但由于从离线到在线设置的突然偏移,这通常会导致初始策略出现performance drop。因此为了提高稳定性和性能的方法,设计了一种过渡到在线设置的替代方法。算法初始化一个新的重放缓冲区,并根据从环境中收集的额外交互训练评论家和策略。基于衰减率 k α k\alpha kα的指数衰减,降低了BC项的影响:
κ α = exp ⁡ [ 1 N log ⁡ ( α e n d α s t a r t ) ] . \kappa_\alpha=\exp\big[\frac{1}{N}\log\big(\frac{\alpha_{end}}{\alpha_{start}}\big)\big]. κα=exp[N1log(αstartαend)].

算法基于REDQ+AdaptiveBC,对于每一个Q函数
∇ θ i 1 ∣ B ∣ ∑ ( s , a , r , s ′ ) ∈ B ( Q θ i − r − γ min ⁡ i = 1 , 2 Q θ i ( s ′ , a ′ ) ) 2 ,     ( 3 ) \nabla_{\theta_i}\frac{1}{|B|}\sum_{(s,a,r,s')\in B}\left(Q_{\theta_i}-r-\gamma\min_{i=1,2}Q_{\theta_i}(s',a')\right)^2, ~~~(3) θiB1(s,a,r,s)B(Qθirγi=1,2minQθi(s,a))2,   (3)
其中策略为确定性策略,加上噪声提升探索能力 a ′ = c l i p ( π ϕ ′ ( s ′ ) + n o i s e , − 0.5 , 0.5 )    n o i s e ∼ N ( 0 , ϵ ) a^{\prime}=\mathrm{clip}(\pi_{\phi^{\prime}}(s^{\prime})+\mathrm{noise,-0.5,0.5)} ~~noise \sim N(0,\epsilon) a=clip(πϕ(s)+noise,0.5,0.5)  noiseN(0,ϵ)。策略优化如下
∇ ϕ 1 ∣ B ∣ ∑ ( s , a ) ∈ B Q θ 1 ( s , π ϕ ( s ) ) − α ( π ϕ ( s ) − a ) 2 .     ( 4 ) \nabla_\phi\frac{1}{|B|}\sum_{(s,a)\in B}Q_{\theta_1}\big(s,\pi_\phi(s)\big)-\alpha\big(\pi_\phi(s)-a\big)^2.~~~(4) ϕB1(s,a)BQθ1(s,πϕ(s))α(πϕ(s)a)2.   (4)

伪代码

在这里插入图片描述
在这里插入图片描述

result

在这里插入图片描述

  • 14
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值