Offlian RL: Weighted Policy Constraints for Offline Reinforcement Learning

AAAI 2023
paper

Intro

分布偏移导致离线RL对于OOD数据存在过估计问题。因此一些方法限制策略靠近行为策略。但是着很大程度受限于数据集的质量。若是数据集存在非专家,一个自然的问题是是否有可能构建一个更合理的策略约束方法,该方法通过识别数据集中状态-动作对的优越性,将学习到的策略限制为理想的行为,而不是较差的行为?

为了识别理想的动作,文章考虑加权克隆的离线方法。通过学习优势函数值判断。然而该方法无法超越离线数据集的最优策略。并且对于数据集外的未知状态可能预测错误动作。

本文方法weighted policy constraints (wPC)则是将策略约束方法与加权克隆方法结合。
在这里插入图片描述

Method

基于TD3+BC的方法,对BC惩罚项加入动态更新的加权参数项:
π θ : = arg ⁡ max ⁡ π θ E s , a ∼ B [ λ Q ( s , π θ ( s ) ) − w ( s , a ) ( π θ ( s ) − a ) 2 ] , w ( s , a ) = I [ A ^ ( s , a ) > 0 ] = I [ Q ^ ϕ ( s , a ) − V ^ ψ ( s ) > 0 ] , \begin{aligned}\pi_\theta:&=\arg\max_{\pi_\theta}\mathbb{E}_{s,a\sim B}[\lambda Q(s,\pi_\theta(s))-w(s,a)(\pi_\theta(s)-a)^2],\\w(s,a)&=\mathbb{I}[\hat{A}(s,a)>0]=\mathbb{I}[\hat{Q}_\phi(s,a)-\hat{V}_\psi(s)>0],\end{aligned} πθ:w(s,a)=argπθmaxEs,aB[λQ(s,πθ(s))w(s,a)(πθ(s)a)2],=I[A^(s,a)>0]=I[Q^ϕ(s,a)V^ψ(s)>0],
算法伪代码:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值