Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic

最新推荐文章于 2024-10-09 22:28:58 发布

收到求救信号

最新推荐文章于 2024-10-09 22:28:58 发布

阅读量783

点赞数 12

分类专栏：强化学习 ICML 2024 文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/141960094

版权

强化学习同时被 2 个专栏收录

89 篇文章 1 订阅

订阅专栏

ICML 2024

3 篇文章 0 订阅

订阅专栏

ICML 2024
paper
code

intro

以往在线强化学习通常利用Double-clip Q 防止Q值高估问题，本文则是指出这样的操作以及Bellman算子实现中通过神经网络拟合 $\max$
的方式，导致replaybuffer中的某些有潜在高质量的样本价值被低估。因此，本文重新构造了一种混合的bellman算子实现探索与利用的平衡。

method

文章通过对SAC以及TD3剔除Clip-Q，发现仍然存在价值低估问题。指出这是由bellman算子导致。传统Q迭代过程中， $Q(s,a)\leftarrow r(s,a)+\gamma\mathbb{E}_{s^{\prime}}[\max_{a^{\prime}}Q(s^{\prime},a^{\prime})].$ 中max难以计算，因此在计算target-Q时采用的采用求期望 $E_{s,a \sim \pi} [Q(s,a)]$ 。正是这样的操作使得有些样本的价值估计低估的可能增大。随后，文章通过计算replaybuffer中最优历史策略的价值与在线策略期望价值的残差，证明这种低估随着训练的进行一直存在。
$\Delta(\mu_k,\pi_k)=\mathbb{E}_s\left[\max_{a\sim\mu_k}Q^{\mu_k}(s,a)-\mathbb{E}_{a\sim\pi_k}\left[Q^{\pi_k}(s,a)\right]\right]$
在这里插入图片描述

Blended Exploitation and Exploration operator

为了利用好replaybuffer中的潜在的历史最优策略下的样本，防止其被低估，文章设计一种无关在线策略的bellman算子
$\begin{aligned}\mathcal{T}_{exploit}^{\mu}Q(s,a)=r(s,a)+\gamma\cdot\max_{a^{\prime}\in\mathcal{A},\mu(a^{\prime}|s^{\prime})>0}\mathbb{E}_{s^{\prime}\sim P(s^{\prime}|s,a)}[Q(s^{\prime},a^{\prime})].\quad(1)\end{aligned}$
其中 $\mu$ 表示buffer中的混合历史policy。在实际操作中，为了避免max-target Q计算，采用IQL、Extreme Q-Learning等算法利用采样样本计算V(s)替代以及优化V函数（具体证明见两个论文） ( In-sample Learning via Expectile Regression)
在这里插入图片描述

同时，为了保证探索能力，采用正则化的传统基于期望的bellman算子（若采用熵的形式，便是SAC）
$\begin{aligned}\mathcal{T}_{explore}^{\pi}Q(s,a)=r(s,a)+\gamma\cdot\mathbb{E}_{s^{\prime}\sim P(s^{\prime}|s,a)}\mathbb{E}_{a^{\prime}\sim\pi(a^{\prime}|s^{\prime})}[Q(s^{\prime},a^{\prime})-\omega(s^{\prime},a^{\prime}|\pi)]\quad(2)\end{aligned}$
然后将两种算子加权融合得到本文BEE算子：
$\begin{aligned}\mathcal{B}^{\{\mu,\pi\}}Q(s,a)=\lambda\cdot\mathcal{T}_{exploit}^{\mu}Q(s,a)+(1-\lambda)\cdot\mathcal{T}_{explore}^{\pi}Q(s,a)\quad(3)\end{aligned}$

伪代码

在这里插入图片描述
文章还将该算子结合到model-based 的方法

results

在这里插入图片描述

总结

实验全面，效果也好。从价值函数估计角度出发，探索replayBuffer中样本的利用，进而提升sample efficiency。这与上一篇的OBAC的一个共同点，就是利用offline的RL方法得到一个价值函数的表达，OBAC注重用它在策略层面的引导，而本文则侧重通过bellman算子在价值函数本身的改造