O2O: Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

文章探讨了离线阶段过度保守的价值估计如何影响在线策略微调,提出Cal-QL方法,通过在离线阶段修正Q函数,确保在线阶段的稳定性能,避免性能初期下降。它利用行为策略作为下界,对Q函数进行优化。
摘要由CSDN通过智能技术生成

NIPS 2023
paper
code

Intro

文章通过CQL分析指出离线阶段保守的价值估计会导致在线微调初始阶段出现performance drop,进而导致在现阶段需要浪费大量样本重新矫正Q函数。本文提出的Cal-QL便是通过离线阶段矫正Q函数从而避免在线初始阶段的drop。
在这里插入图片描述

Method

出现这种drop是离线阶段保守的价值估计,造成策略在线时,面对全新的数据出现错误的价值估计,而这种错误的估计结果很可能欺骗策略学习
在这里插入图片描述
直观的方法便是在离线阶段,放松Q的估计。因此,基于CQL的对Q优化目标,Cal-QL采用行为策略作为参考策略,并当作价值估计的下界值
J Q ( θ ) : = α ( E s ∼ D , a ∼ π [ max ⁡ ( Q θ ( s , a ) , Q μ ( s , a ) ) ] − E s , a ∼ D [ Q θ ( s , a ) ] ⏟ Calibrated conservative regularizer  R ( θ ) ) + 1 2 E s , a , s ′ ∼ D [ ( Q θ ( s , a ) − B π Q ˉ ( s , a ) ) 2 ] J_{Q}(\theta):=\alpha\left(\underbrace{\mathbf{E}_{s\sim D,a\sim \pi}\left[\max\left(Q_{\theta}(s,a),Q^{\mu}(s,a)\right)\right]-\mathbf{E}_{s,a\sim D}\left[Q_{\theta}(s,a)\right]}_{\text{Calibrated conservative regularizer }\mathcal{R}(\theta)}\right)+\frac{1}{2}\mathbb{E}_{s,a,s^{\prime}\sim D}\left[\left(Q_{\theta}(s,a)-B^{\pi}\bar{Q}(s,a)\right)^{2}\right] JQ(θ):=α Calibrated conservative regularizer R(θ) EsD,aπ[max(Qθ(s,a),Qμ(s,a))]Es,aD[Qθ(s,a)] +21Es,a,sD[(Qθ(s,a)BπQˉ(s,a))2]
上式 max ⁡ \max max在当前策略价值估计高于行为策略时,任然保持CQL的估计方法,而对于较低的价值估计,则使用行为策略的估计值,避免保守估计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值