O2O:DCAC: Reducing Unnecessary Conservatism in Offline-to-online Reinforcement Learning

DAI 2023
paper

Intro

离线强化学习(Offline Reinforcement Learning, O-RL)数据集的质量对智能体性能至关重要,而高质量的数据集往往稀缺。这种稀缺性要求通过后续的环境交互来增强智能体。特别是,状态-动作分布的偏移可能会对良好初始化的政策产生潜在的不利影响,从而阻碍了离线训练的政策直接应用离线政策RL算法。当前主要的离线到在线RL方法通常基于保守主义,这一特性可能会无意中限制了渐近性能。为了应对这一挑战,我们提出了一种名为动态约束演员-评论家(Dynamically Constrained Actor-Critic, DCAC)的方法,该方法基于动态约束策略优化的数学形式,能够根据特定规则审慎地调整策略优化上的约束,从而稳定初始的在线学习阶段,并减少不必要的保守主义。

Method

给定先验策略 π P i o r o \pi_{Pioro} πPioro,基于约束的策略优化问题可表示为
max ⁡ θ E a ∼ π θ [ Q ( s , a ) − log ⁡ π θ ( a ∣ s ) ] s . t . 1 g ( O s ) D K L ( π θ ( ⋅ ∣ s ) ∣ ∣ π p r i o r ( ⋅ ∣ s ) ) ≤ ϵ , ∫ π θ ( a ∣ s ) d a = 1. \max_{\theta}\mathbb{E}_{a\sim\pi_{\theta}}[Q(s,a)-\log\pi_{\theta}(a|s)]\\ s.t.\frac1{g(O_s)}D_{\mathrm{KL}}(\pi_\theta(\cdot|s)||\pi_{\mathrm{prior}}(\cdot|s))\leq\epsilon,\\ \int\pi_\theta(a|s)da=1. θmaxEaπθ[Q(s,a)logπθ(as)]s.t.g(Os)1DKL(πθ(s)∣∣πprior(s))ϵ,πθ(as)da=1.
其中 g g g为约束系数函数。有拉格朗日乘子法得到最优解
π ∗ ( a ∣ s ) = exp ⁡ [ g ( O s ) λ Q ~ ( s , a ) + log ⁡ π p r i o r ( a ∣ s ) ] Z ( s ) , w h e r e   Z ( s ) = ∫ exp ⁡ [ g ( O s ) λ Q ~ ( s , a ) + log ⁡ π p r i o r ( a ∣ s ) ] d a . Q ~ ( s , a ) = Q ( s , a ) − log ⁡ π θ ( a ∣ s ) . \pi^{*}(a|s)=\frac{\exp[\frac{g(O_{s})}{\lambda}\tilde{Q}(s,a)+\log\pi_{\mathrm{prior}}(a|s)]}{\mathcal{Z}(s)},\\\mathrm{where~}\mathcal{Z}(s)=\int\exp[\frac{g(O_{s})}{\lambda}\tilde{Q}(s,a)+\log\pi_{\mathrm{prior}}(a|s)]da.\\\tilde{Q}(s,a)=Q(s,a)-\log\pi_{\theta}(a|s). π(as)=Z(s)exp[λg(Os)Q~(s,a)+logπprior(as)],where Z(s)=exp[λg(Os)Q~(s,a)+logπprior(as)]da.Q~(s,a)=Q(s,a)logπθ(as).
那么任意状态下的策略优化目标转化为
min ⁡ θ D K L ( π θ ( ⋅ ∣ s ) ∣ ∣ π ∗ ( ⋅ ∣ s ) ) . \min_\theta D_{\mathrm{KL}}(\pi_\theta(\cdot|s)||\pi^*(\cdot|s)). θminDKL(πθ(s)∣∣π(s)).
上述KL散度等价于为
D K L ( π θ ( ⋅ ∣ s ) ∣ ∣ π ∗ ( ⋅ ∣ s ) )    ⟺    g ( O s ) λ [ − ∫ π θ ( a ∣ s ) [ Q ( s , a ) − log ⁡ π θ ( a ∣ s ) ] d a + λ g ( O s ) ∫ π θ ( a ∣ s ) log ⁡ π θ ( a ∣ s ) π p r i o r ( a ∣ s ) d a ] . \begin{gathered} D_{\mathrm{KL}}(\pi_{\theta}(\cdot|s)||\pi^{*}(\cdot|s))\iff \\ \frac{g(O_{s})}{\lambda}[-\int\pi_{\theta}(a|s)[Q(s,a)-\log\pi_{\theta}(a|s)]da+ \\ \frac{\lambda}{g(O_{s})}\int\pi_{\theta}(a|s)\log\frac{\pi_{\theta}(a|s)}{\pi_{\mathrm{prior}}(a|s)}da]. \end{gathered} DKL(πθ(s)∣∣π(s))λg(Os)[πθ(as)[Q(s,a)logπθ(as)]da+g(Os)λπθ(as)logπprior(as)πθ(as)da].
对权重进行归一化后原问题转化为
min ⁡ θ [ − 1 1 + λ ~ ( O s ) ∫ π θ ( a ∣ s ) [ Q ( s , a ) − log ⁡ π θ ( a ∣ s ) ] d a + λ ~ ( O s ) 1 + λ ~ ( O s ) ∫ π θ ( a ∣ s ) log ⁡ π θ ( a ∣ s ) π p r i o r ( a ∣ s ) d a ] . \min_{\theta}[\frac{-1}{1+\tilde{\lambda}(O_{s})}\int\pi_{\theta}(a|s)[Q(s,a)-\log\pi_{\theta}(a|s)]da\\+\frac{\tilde{\lambda}(O_{s})}{1+\tilde{\lambda}(O_{s})}\int\pi_{\theta}(a|s)\log\frac{\pi_{\theta}(a|s)}{\pi_{\mathrm{prior}}(a|s)}da]. θmin[1+λ~(Os)1πθ(as)[Q(s,a)logπθ(as)]da+1+λ~(Os)λ~(Os)πθ(as)logπprior(as)πθ(as)da].
其中动态权重函数 λ ~ ( O s ) = λ g ( O s ) \tilde{\lambda}(O_{s})=\frac{\lambda}{g(O_{s})} λ~(Os)=g(Os)λ,动态约束规则则是确定权重值为0还是 λ ~ ( O s ) 1 + λ ~ ( O s ) \frac{\tilde{\lambda}(O_{s})}{1+\tilde{\lambda}(O_{s})} 1+λ~(Os)λ~(Os)。DCAC采用一种基于状态值函数逼近器集成内预测一致性的约束规则,称为值预测一致性规则。采用集成价值函数 { V ζ i ( s ) ∣ i = 1 , 2 , . . . , K } \{V_{\zeta_{i}}(s)|i=1,2,...,K\} {Vζi(s)i=1,2,...,K}预测,若落入区间 [ c l o w ⋅ v ψ , c h i g h ⋅ v ψ ] [c_{\mathrm{low}}\cdot v_\psi,c_{\mathrm{high}}\cdot v_\psi] [clowvψ,chighvψ]则说明该状态下不需要约束,反之则需要.

在迭代步数小于 N C T N_{CT} NCT是集中对Q值函数进行更新,训练所采集的样本是来自离线训练的策略 π θ \pi_\theta πθ, 鉴于离线训练的策略通常表现出值得称赞的性能,因此此类策略样本的特点是值相对较高。这些样本在重放缓冲区中的集中分布可能会导致参数值函数对不熟悉的动作进行过度乐观估计。为了减轻这种潜在的偏差,引入了一种撤销机制,旨在扩大在批评转移过程中积累的样本的分布。具体做法是加入参数策略都进行更新,并定期重置为离线策略。伪代码间Algorithm 3

伪代码

在这里插入图片描述
在这里插入图片描述

结果

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值