Exploration:SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning-CSDN博客

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/136582526

本文介绍了一种改进的off-policy在线强化学习算法，通过结合集成SAC和UCB探索策略，提出加权贝尔曼备份机制以增强训练稳定性，并使用随机初始化和UCB方法进行有效探索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ICML 2021
paper

Introduction

off-policy 的在线RL算法存在训练不稳定以及探索利用之间平衡问题。为解决上述问题突出算法，包含两个关键点：(1)基于集成的weighted bellman backup (2)基于UCB的探索方式。结合SAC以及RainBow DQN均取得了不错的效果。

Method

在这里插入图片描述

Weighted Bellman backups

考虑集成SAC，即使用N个Q值函数以及策略去估计 $\{Q_{\theta_i}, \pi_{\phi_i}\}_{i=1}^N$ 。由于target Q值估计的不准确容易由bellman backup错误传播到Q，造成训练的不稳定。因此提出一种加权的均方bellman：
$\mathcal{L}_{WQ}\left(\tau_t,\theta_i\right)=w\left(s_{t+1},a_{t+1}\right)\left(Q_{\theta_i}(s_t,a_t)-r_t-\gamma\bar{V}(s_{t+1})\right)^2$
其中权重 $w(s,a)=\sigma\left(-\bar{Q}_{\mathtt{std}}(s,a)*T\right)+0.5$ 。 $\sigma$ 表示Sigmoid函数， $\bar{Q}_{std}$ 表示所有Q预测值的标准差。上式说明标准差大的(s,a)越不被更新。

Bootstrap with random initialization

使用集成的形式，对每个agent首先采用随机初始化。然后采集不同数据进行参数更新。具体的，算法算法维护一个伯努利分布的binary mask $m_{t,i}$ , 该值将加入到buffer中。当采集数据训练策略以及价值函数时，对应损失函数变为 $m_{t,i}\mathcal{L}_{\pi}\left(s_{t},\phi_{i}\right)\mathrm{and}m_{t,i}\mathcal{L}_{WQ}(\tau_{t},\theta_{i})$