Offline RL:Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning

本文提出了一种新的离线强化学习方法PBRL,通过利用模型自由的Q函数不确信度量来精确表征OOD数据,避免了过度拟合。方法中,PBRL估计OOD动作并采用递减的惩罚机制,确保早期训练稳定性。Critic估计包括对in-distribution和OOD数据的双重优化,策略则通过最大化Q函数并结合动作熵正则化进行优化。
摘要由CSDN通过智能技术生成

ICLR 2022
paper

Intro

离线强化学习容易因为OOD数据导致外推误差。以往的方法采用保守Q估计或者是策略约束。这些方法限制对OOD数据价值泛化以及缺乏对这些数据的精确表征。本文提出悲观不确信度量的离线强化学习方法PBRL。

Method

在这里插入图片描述

为了有效对OOD数据精确表征,部分model-based 离线方法证明不确信度量方法的有效性,但是需要离线数据学习动力学模型。本文model-free的方法则是利用对多个Q函数进行不确信度量,并作为惩罚项加入Q函数的自举过程:
T ^ in Q θ k ( s , a ) : = r ( s , a ) + γ E ^ s ′ ∼ P ( ⋅ ∣ s , a ) , a ′ ∼ π ( ⋅ ∣ s ) [ Q θ − k ( s ′ , a ′ ) − β in U θ − ( s ′ , a ′ ) ] \widehat{\mathcal{T}}^\text{in}Q_\theta^k(s,a):=r(s,a)+\gamma\widehat{\mathbb{E}}_{s'\sim P(\cdot|s,a),a'\sim\pi(\cdot|s)}\Big[Q_{\theta^-}^k(s',a')-\beta_\text{in}\mathcal{U}_{\theta^-}(s',a')\Big] T inQθk(s,a):=r(s,a)+γE sP(s,a),aπ(s)[Qθk(s,a)βinUθ(s,a)]
其中不确信度量估计函数 U \mathcal{U} U则是采用多个Q的标准差:
U ( s , a ) : = Std ( Q k ( s , a ) ) = 1 K ∑ k = 1 K ( Q k ( s , a ) − Q ˉ ( s , a ) ) 2 \mathcal{U}(s,a):=\text{Std}(Q^k(s,a))=\sqrt{\frac{1}{K}\sum_{k=1}^K\left(Q^k(s,a)-\bar{Q}(s,a)\right)^2} U(s,a):=Std(Qk(s,a))=K1k=1K(Qk(s,a)Qˉ(s,a))2

然而这些数据均是来自数据集 D i n D_{in} Din, 因此PBRL提出一种对OOD数据的估计方法。其中OOD的动作随机采样自均匀分布
T ^ o o d Q θ k ( s o o d , a o o d ) : = Q θ k ( s o o d , a o o d ) − β o o d U θ ( s o o d , a o o d ) , \widehat{\mathcal{T}}^{\mathrm{ood}}Q_\theta^k(s^{\mathrm{ood}},a^{\mathrm{ood}}):=Q_\theta^k(s^{\mathrm{ood}},a^{\mathrm{ood}})-\beta_{\mathrm{ood}}\mathcal{U}_\theta(s^{\mathrm{ood}},a^{\mathrm{ood}}), T oodQθk(sood,aood):=Qθk(sood,aood)βoodUθ(sood,aood),
为了稳定早期训练过程对该值进行截断 max ⁡ { 0 , T o o d Q θ k ( s o o d , a o o d ) } \max\{0,\mathcal{T}^\mathrm{ood}Q_{\theta}^{k}(s^\mathrm{ood},a^\mathrm{ood})\} max{0,ToodQθk(sood,aood)},同时参数 β o o d \beta_{\mathrm{ood}} βood在训练过程中呈现递减的变化趋势,这是因为早期Q网络以及不确定性度量是不准确,因此需要较大值予以惩罚;而随着训练的进行,Q值逐渐预测准确,该惩罚应该渐渐减轻。

综上对Critic的估计由两部分构成:
L critic = E ^ ( s , a , r , s ′ ) ∼ D in [ ( T ^ in Q k − Q k ) 2 ] + E ^ s ood ∼ D in , a ood ∼ π [ ( T ^ ood Q k − Q k ) 2 ] \mathcal{L}_{\text{critic}}=\widehat{\mathbb{E}}_{(s,a,r,s')\sim\mathcal{D}_{\text{in}}}\big[(\widehat{\mathcal{T}}^{\text{in}}Q^k-Q^k)^2\big]+\widehat{\mathbb{E}}_{s^{\text{ood}}\sim\mathcal{D}_{\text{in}},a^{\text{ood}}\sim\pi}\big[(\widehat{\mathcal{T}}^{\text{ood}}Q^k-Q^k)^2\big] Lcritic=E (s,a,r,s)Din[(T inQkQk)2]+E soodDin,aoodπ[(T oodQkQk)2]

而对于策略则是最大化Q函数优化,同时添加动作熵进行正则化:
π φ : = max ⁡ φ E ^ s ∼ D i n , a ∼ π ( ⋅ ∣ s ) [ min ⁡ k = 1 , … , K Q k ( s , a ) − log ⁡ π ( a π ∣ s ) ] , \pi_\varphi:=\max_\varphi\widehat{\mathbb{E}}_{s\sim\mathcal{D}_{\mathrm{in}},a_\sim\pi(\cdot|s)}\Big[\min_{k=1,\ldots,K}Q^k(s,a)-\log\pi(a_{\pi}|s)\Big], πφ:=φmaxE sDin,aπ(s)[k=1,,KminQk(s,a)logπ(aπs)],

伪代码

在这里插入图片描述

  • 30
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值