Online RL + IL :Policy Improvement via Imitation of Multiple Oracles

收到求救信号

已于 2024-05-15 10:57:29 修改

阅读量344

点赞数 5

分类专栏：模仿学习强化学习 Model-free 文章标签：机器学习人工智能算法

于 2024-05-15 10:31:21 首次发布

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/138870011

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

Model-free

15 篇文章 0 订阅

订阅专栏

模仿学习

12 篇文章 0 订阅

订阅专栏

NIPS 2020
paper
code
如何利用多个次优专家策略来引导智能体在线学习，后续有多个文章研究该设定下的RL。

Intro

论文探讨了在强化学习（RL）中，如何通过模仿多个次优策略（称为oracle）来提升策略性能的问题。模仿学习（Imitation Learning, IL）通过在训练期间使用oracle策略作为引导，减少了这种成本。然而实际情况下，学习者可以访问到多个次优的oracle，这些oracle在某些状态下可能会提供相互矛盾的指导。现有的模仿学习文献对这种情况的处理相对有限。
论文的主要贡献包括：

提出了一个理论框架，用于从多个oracle中学习，特别是通过定义一个基于多个oracle策略价值函数最大值的基准线（max-aggregated baseline），来解决多个oracle之间冲突的建议。
提出了一个新颖的模仿学习算法MAMBA（Max-aggregation of Multiple Baselines），它可以通过在线学习的方式，学习与max-aggregated baseline竞争的策略。MAMBA是一个基于广义优势估计（Generalized Advantage Estimation, GAE）风格的梯度估计器的一阶算法。
提供了MAMBA的遗憾（regret）性能保证，并在实验中评估了MAMBA与标准策略梯度和AggreVaTe(D)算法的性能，展示了MAMBA利用单个和多个弱oracle进行演示的能力，并显著加快了策略优化的速度。论文还讨论了如何选择在给定状态下切换不同oracle的点，以及是否可以学习一种可靠的规则来进行切换。

Method

文章设定智能体能够访问一组Oracle策略 $\Pi^{\mathsf{e}}=\{\pi^{k}\}_{k\in[K]}$ 。设 $V^k:=V^{\pi^k}$ 表示策略对应的状态价值函数。为了防止多种Oracle给出矛盾的建议导致智能体在线优化，文章提出max-aggregated baseline
$f^{\max}(s):=\max_{k\in[K]}V^k(s)$
该值将作为一个目标，让智能体学习策略使得状态值函数大于该baseline。而此时需要完全了解MDP过程以及oracle准确的价值估计函数，这在IL中无法满足。因此，本文提出在线RL去逼近。
若 $\hat{A}$ 表示 $A^{\widehat{f}^{\mathrm{max}}}$ 。采用基于优势函数 $\hat{A}$ 的策略梯度方法优化
$\nabla\widehat{\ell}_n(\pi_n)=-T\mathbb{E}_{s\sim d^{\pi n}}\mathbb{E}_{a\sim\pi|s}\left[\nabla\log\pi(a|s)\widehat{A}(s,a)\right]|_{\pi=\pi_n}$

在这里插入图片描述
该定理说明在一阶在线算法(一阶导数更新模型参数)的期望遗憾满足一定条件下，最大化下界max-aggregated baseline的期望，便最大化价值函数。而在单个oracle下, 基于MC近似估计的 $\hat{f}^{max}$ 是无偏估计。但是存在T倍方差。在多个Oracle下对 $f^{max}$ 行无偏估计十分困难。因此本文采用基于类似TD- $\lambda$ 的加权估计方法，对其进行函数近似。优化目标可表示为
$\ell_n(\pi;\lambda):=-(1-\lambda)T\mathbb{E}_{s\thicksim d^{\pi_n}}\left[A_\lambda^{\max,\pi}(s,\pi)\right]-\lambda\mathbb{E}_{s\thicksim d_0}\left[A_\lambda^{\max,\pi}(s,\pi)\right]$
其中加权优势函数为
$A_\lambda^{\max,\pi}(s,a):=(1-\lambda)\sum_{i=0}^\infty\lambda^iA_{(i)}^{\max,\pi}(s,a)\\\\A_{(i)}^{\max,\pi}(s_t,a_t):=\mathbb{E}_{\xi_t\sim\rho^\pi|s_t}[r(s_t,a_t)+\cdots+r(s_{t+i},a_{t+i})+f^{\max}(s_{t+i+1})]-f^{\max}(s_t)$

该优化目标的梯度满足以下定理
在这里插入图片描述
因此原问题梯度表示为 $\nabla\widehat{\ell}_n(\pi_n;\lambda)=-T\mathbb{E}_{s\sim d^{\pi_n}}\mathbb{E}_{a\sim\pi|s}[\nabla\log\pi(a|s)\widehat{A}_\lambda^\pi(s,a)]|_{\pi=\pi_n} （17）$

$\textbf{Lemma 4. Define }\widehat{A}(s,a):=r(s,a)+\mathbb{E}_{s^{\prime}|s,a}[\widehat{f}^{\max}(s^{\prime})]-\widehat{f}^{\max}(s).\textit{ It holds that for all }\lambda\in[0,1],\\\widehat{A}_\lambda^\pi(s_t,a_t)=\mathbb{E}_{\xi_t\sim\rho^\pi|s_t}\left[\sum_{\tau=t}^{T-1}\lambda^{\tau-t}\widehat{A}(a_\tau,s_\tau)\right]\text{(18)}$
基于上式，便可利用近似函数 $\hat{f}^{\max}$ ，通过采样轨迹数据获得无偏估计，并通过策略梯度方法优化策略。

伪代码

在这里插入图片描述

收到求救信号

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Online RL + IL :Policy Improvement via Imitation of Multiple Oracles

NIPS 2020如何利用多个次优专家策略来引导智能体在线学习，后续有多个文章研究该设定下的RL。
复制链接

扫一扫

专栏目录