Exploration:SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning

本文介绍了一种改进的off-policy在线强化学习算法,通过结合集成SAC和UCB探索策略,提出加权贝尔曼备份机制以增强训练稳定性,并使用随机初始化和UCB方法进行有效探索。
摘要由CSDN通过智能技术生成

ICML 2021
paper

Introduction

off-policy 的在线RL算法存在训练不稳定以及探索利用之间平衡问题。为解决上述问题突出算法,包含两个关键点:(1)基于集成的weighted bellman backup (2)基于UCB的探索方式。结合SAC以及RainBow DQN均取得了不错的效果。

Method

在这里插入图片描述

Weighted Bellman backups

考虑集成SAC,即使用N个Q值函数以及策略去估计 { Q θ i , π ϕ i } i = 1 N \{Q_{\theta_i}, \pi_{\phi_i}\}_{i=1}^N {Qθi,πϕi}i=1N。由于target Q值估计的不准确容易由bellman backup错误传播到Q,造成训练的不稳定。因此提出一种加权的均方bellman:
L W Q ( τ t , θ i ) = w ( s t + 1 , a t + 1 ) ( Q θ i ( s t , a t ) − r t − γ V ˉ ( s t + 1 ) ) 2 \mathcal{L}_{WQ}\left(\tau_t,\theta_i\right)=w\left(s_{t+1},a_{t+1}\right)\left(Q_{\theta_i}(s_t,a_t)-r_t-\gamma\bar{V}(s_{t+1})\right)^2 LWQ(τt,θi)=w(st+1,at+1)(Qθi(st,at)rtγVˉ(st+1))2
其中权重 w ( s , a ) = σ ( − Q ˉ s t d ( s , a ) ∗ T ) + 0.5 w(s,a)=\sigma\left(-\bar{Q}_{\mathtt{std}}(s,a)*T\right)+0.5 w(s,a)=σ(Qˉstd(s,a)T)+0.5 σ \sigma σ表示Sigmoid函数, Q ˉ s t d \bar{Q}_{std} Qˉstd表示所有Q预测值的标准差。上式说明标准差大的(s,a)越不被更新。

Bootstrap with random initialization

使用集成的形式,对每个agent首先采用随机初始化。然后采集不同数据进行参数更新。具体的,算法算法维护一个伯努利分布的binary mask m t , i m_{t,i} mt,i, 该值将加入到buffer中。当采集数据训练策略以及价值函数时,对应损失函数变为 m t , i L π ( s t , ϕ i ) a n d m t , i L W Q ( τ t , θ i ) m_{t,i}\mathcal{L}_{\pi}\left(s_{t},\phi_{i}\right)\mathrm{and}m_{t,i}\mathcal{L}_{WQ}(\tau_{t},\theta_{i}) mt,iLπ(st,ϕi)andmt,iLWQ(τt,θi)

UCB exploration

利用ensemble的Q值估计实现乐观探索,具体动作选择:
a t = max ⁡ a { Q nean ( s t , a ) + λ Q std ( s t , a ) } a_t=\max_a\{Q_\text{nean}(s_t,a)+\lambda Q_\text{std}(s_t,a)\} at=amax{Qnean(st,a)+λQstd(st,a)}
在连续动作空间,从N个策略集生成N个动作,选取最大化上式的动作作为输出。

伪代码

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值