Online RL + IL : Blending Imitation and Reinforcement Learning for Robust Policy Improvement

最新推荐文章于 2024-09-04 14:31:41 发布

收到求救信号

最新推荐文章于 2024-09-04 14:31:41 发布

阅读量961

点赞数 11

分类专栏：强化学习 Model-free 模仿学习文章标签：人工智能机器学习算法

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/138913697

版权

强化学习同时被 3 个专栏收录

86 篇文章 1 订阅

订阅专栏

Model-free

16 篇文章 0 订阅

订阅专栏

模仿学习

12 篇文章 0 订阅

订阅专栏

ICLR 2024 Spotlight
paper
max-aggregation 系列的第三篇文章，同样研究从多个次优策略中选择，从而引导智能体在线高效学习

Intro

MAMBA 和 MAPS 在面对质量较差的专家集合或学习者已经超越所有专家时，仍然会尝试从较差的专家中进行模仿学习，这可能会阻碍策略改进。本文提出一种全新框架RPI用于解决该问题。

Method

首先文章对原始设定下的专家策略结合进行扩展，将当前学习者策略纳入其中。
在这里插入图片描述
这样全新的max-aggregation 中的优势函数以及策略定义为

在这里插入图片描述
这种策略扩展使得 $\pi^{\circ}\left(a\mid s\right)$ 始终保证为最优策略。同时，为了实现在rollout过程中的探索能力以及学习者策略自我提升，算法使用Dirac distribution采样.

接下来便是采用在线RL算法是对价值函数进行逼近。文章所提出的算法由两部分构成：

Robust Active Policy Selection (RAPS)：基于价值函数选择策略rollout。
Robust Policy Gradient (RPG)：在 actor-critic 框架内，基于新提出的优势函数(类GAE)执行策略梯度更新

RAPS

RAPS 采用集成模型估计策略的价值函数，结合 UCB (专家策略)和 LCB （学习者策略）的方法调整函数估计，选取最优估计下的策略从而实现主动策略选择。
$\begin{align}\overline{\hat{V}^k}(s)&=\hat{V}_\mu^k(s)+\sigma_k(s),\underline{\hat{V}^k}(s)=\hat{V}_\mu^k(s)-\sigma_k(s)\\k_{\star}&=\arg\max_{k\in[|\Pi^{\varepsilon}|]}\left\{\overline{\hat{V}^{1}}\left(s\right),\overline{\hat{V}^{2}}\left(s\right),...,\overline{\hat{V}^{K}}\left(s\right),\underline{\hat{V}^{K+1}}\left(s\right)\right\} (10)\end{align}$

RPG

执行策略收集轨迹样本用于价值函数优化以及策略优化。本文采用actor-critic框架。其中对策略梯度优化，采用GAE形式估计优势函数
$\hat{A}_t^{\mathrm{GAE}(\gamma,\lambda)+}=\hat{\delta}_t+\left(\gamma\lambda\right)\hat{\delta}_{t+1}+...+\left(\lambda\gamma\right)^{T-t+1}\hat{\delta}_{T-1},\mathrm{~where~}\hat{\delta}_t=r_t+\gamma\hat{f}^+\left(s_{t+1}\right)-\hat{f}^+\left(s_t\right) (11)$
$\hat{f}^{+}\left(s\right)=\max_{k\in[|\Pi^{\varepsilon}|]}\hat{V}_{\mu}^{k}\left(s\right),\mathrm{~where~}\hat{V}_{\mu}^{k}\left(s\right)=\hat{V}_{\mu}^{|\Pi^{\varepsilon}|}\left(s\right),\mathrm{~when~}\sigma_{k}\left(s\right)>\Gamma_{s}=0.5$

进一步利用策略梯度算法方法优化策略函数。
$\hat{\ell}_n\left(\pi_n\right):=-H\mathbb{E}_{s\sim d^{\pi_n}}\mathbb{E}_{a\sim\pi|s}\left[\hat{A}^{\text{GAE}+}\left(s,a\right)\right]|_{\pi=\pi_n},$
$\hat{g}_n=\nabla\hat{\ell}_n\left(\pi_n\right)=-H\mathbb{E}_{s\sim d^{\pi_n}}\mathbb{E}_{a\sim\pi|s}\left[\nabla\log\pi\left(a\mid s\right)\hat{A}_t^{\mathrm{GAE}+}\left(s,a\right)\right]|_{\pi=\pi_n}.(14)$

伪代码

在这里插入图片描述

Results

在这里插入图片描述

收到求救信号

关注

11
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
Online RL + IL : Blending Imitation and Reinforcement Learning for Robust Policy Improvement

max-aggregation 系列的第三篇文章，同样研究从多个次优策略中选择，从而引导智能体在线高效学习。
复制链接

扫一扫

专栏目录