O2O:Improving Offline-to-Online Reinforcement Learning with Q-Ensemble

ICML workshop 2023
paper
Q-ensemble 大法好

Introduction

保守的离线学习方法在迁移到在线过程中,会由于保守的Q值估计限制智能体在线探索,导致策略缓慢提升;而若不保持保守的估计又容易因为OOD的数据导致Q过估计,进而让学习不稳定。如下图a所示
在这里插入图片描述
如何找到一种方法既能保守估计又能不限制在线探索?Q-ensemble就能给出解决方法。而一系系列的关于基于ensemble Q的估计方法也证明有效。正如上图中a采用CQL-N以及SAC-N结合的O2O方法。图c则则证明ensemble的方式让策略有可选择的动作分布,相较于保守的CQL更为广泛。基于上述发现,本文提出Ensemble-based O2O算法E2O。

Method

Q ensemble

E2O在离线学习阶段,基于CQL算法对target Q设置多个Q估计并选择最小值作为最终结果。如果在线阶段也采用相同ensemble估计形式,虽然不会出现performance drop,渐进稳定性也较好。但是无法快速改进。因此,下面重点转移到分析我们是否可以适当地放松在线阶段Q值的悲观估计,以进一步提高学习效率,同时确保稳定的训练。

在这里插入图片描述

Loosing Pessimism

对于在线阶段Q估计,如何放松悲观估计本文提出现有的几种形式(1)Min Q: 最小Q (2)Mean Q:均值 (3)REM:随机抽样取均值 (4)RandomMinPair:REDQ采用的方法,随机采样两个Q求其小 (5)WeightedMinPair:本文采用的对RandomMinPair中两个Q取均值。在这里插入图片描述

Optimistic Exploration

对Q进行放松后便是提高策略探索能力。文章比较了三种方法:(1)Bootstrapped DQN (2)OAC (3)SUNRISE.
在这里插入图片描述

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值