Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning

ICML 2023 Poster
paper

Intro

文章设定一个专家策略,给出两种优化目标。一个是基于专家策略正则的累计回报,一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度,进而实现在线引导过程。

Method

原始的RL目标是最大化累计奖励: π ∗ = arg ⁡ max ⁡ π J R ( π ) : = E [ ∑ t = 0 ∞ γ t r t ] \pi^*=\arg\max_\pi J_R(\pi):=\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tr_t\right] π=argmaxπJR(π):=E[t=0γtrt]。而本文设置一个专家策略,通过监督学习形式对原始奖励正则,构造一种新的优化目标
max ⁡ π J R + I ( π , α ) = max ⁡ π E [ ∑ t = 0 H γ t ( r t − α H t X ( π ∣ π ˉ ) ) ] \max_{\pi}J_{R+I}(\pi,\alpha)=\max_{\pi}\mathbb{E}\left[\sum_{t=0}^{H}\gamma^{t}(r_{t}-\alpha H_{t}^{X}(\pi|\bar{\pi}))\right] πmaxJR+I(π,α)=πmaxE[t=0Hγt(rtαHtX(ππˉ))]
其中 H t X ( π ∣ π ˉ ) = − E a ∼ π ( ⋅ ∣ τ t ) [ log ⁡ π ˉ ( a ∣ o t T ) ] H_t^X(\pi|\bar{\pi})=-\mathbb{E}_{a\sim\pi(\cdot|\tau_t)}[\log\bar{\pi}(a|o_t^T)] HtX(ππˉ)=Eaπ(τt)[logπˉ(aotT)]。文章认为,基于奖励正则所得到的策略应该较优,即执行该策略所获得的累计奖励大于原始目标下的策略。形式化该问题便得到算法核心的优化目标
max ⁡ π J R + I ( π , α ) s.t. J R ( π ) ≥ J R ( π R ) \max_\pi J_{R+I}(\pi,\alpha)\quad\text{s.t.}\quad J_R(\pi)\geq J_R(\pi_R) πmaxJR+I(π,α)s.t.JR(π)JR(πR)
其中 π R \pi_R πR是只采用任务原始奖励所优化的辅助策略。进一步转化为拉格朗日对偶问题
min ⁡ λ ≥ 0 max ⁡ π [ J R + I ( π , α ) + λ ( J R ( π ) − J R ( π R ) ) ] = min ⁡ λ ≥ 0 max ⁡ π [ ( 1 + λ ) J R + I ( π , α 1 + λ ) − λ J R ( π R ) ] \min_{\lambda\geq0}\max_{\pi}\left[J_{R+I}(\pi,\alpha)+\lambda\left(J_{R}(\pi)-J_{R}(\pi_{R})\right)\right]=\\\min_{\lambda\geq0}\max_{\pi}\left[(1+\lambda)J_{R+I}(\pi,\frac{\alpha}{1+\lambda})-\lambda J_{R}(\pi_{R})\right] λ0minπmax[JR+I(π,α)+λ(JR(π)JR(πR))]=λ0minπmax[(1+λ)JR+I(π,1+λα)λJR(πR)]
解决该问题分两步,第一步优化策略 π \pi π以及 π R \pi_R πR。然后通过梯度下降优化乘子 λ \lambda λ
λ n e w = λ o l d − μ [ J R ( π ) − J R ( π R ) ] \lambda_{new}=\lambda_{old}-\mu[J_R(\pi)-J_R(\pi_R)] λnew=λoldμ[JR(π)JR(πR)]
其中 J R ( π ) − J R ( π R ) = E ( s , a , t ) ∼ ρ [ γ t ( A π R ( s , a ) − A π ( s , a ) ) ] J_R(\pi)-J_R(\pi_R)=\mathbb{E}_{(s,a,t)\thicksim\rho}[\gamma^t(A_{\pi_R}(s,a)-A_\pi(s,a))] JR(π)JR(πR)=E(s,a,t)ρ[γt(AπR(s,a)Aπ(s,a))]

这个更新规则很直观:如果融合专家优化得到的策略 π \pi π比辅助策略 π R \pi_R πR实现了更多的任务奖励,则 λ \lambda λ减少,增加了 α 1 + λ \frac{\alpha}{1+\lambda} 1+λα,使得策略优化更依赖于下一次迭代中的专家。否则,如果 辅助策略 π R \pi_R πR比策略 π \pi π获得更高的奖励,则 λ 的增加会降低教师的重要性。

伪代码

在这里插入图片描述

results

在这里插入图片描述

问题

伪代码第12行采用了梯度上升。

  • 15
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值