Offline RL:RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning

NIPS 2022
paper
code

Intro

Robust Adversarial Model-Based Offline RL (RAMBO): 一种新的基于模型的离线强化学习方法。
将问题表述为与对抗性环境模型的两玩家零和博弈。 模型被训练以最小化价值函数,同时仍然准确预测数据集中的转换,迫使策略在数据集未覆盖的区域采取保守行动。通过交替优化策略和对抗性地优化模型来近似解决两玩家博弈。

Method

鲁棒对抗强化学习(RARL)可以看作2-players的零和游戏,其公式化表达为 π = arg ⁡ max ⁡ π ∈ Π min ⁡ π ˉ ∈ Π ˉ V M π , π ˉ \pi=\arg\max_{\pi\in\Pi}\min_{\bar{\pi}\in\bar{\Pi}}V_M^{\pi,\bar{\pi}} π=argmaxπΠminπˉΠˉVMπ,πˉ。本文同样基于RARL的架构,但是将对手策略 π ˉ \bar{\pi} πˉ设定为从离线数据中学习的环境动力学习模型 T ( ⋅ ∣ s , a ) T(\cdot|s,a) T(s,a)
问题形式化为
在这里插入图片描述
T ^ ( s ′ , r ∣ s , a ) \widehat{T}(s',r|s,a) T (s,rs,a)表示优化得到的动力学习模型。该问题受限于数据集D,对于D之外的数据没有限制。而CPPO则给出一个理论保证问题 1 输出一个策略 π \pi π,有较高概率与数据集覆盖的状态-动作分布所得到的任意策略 π ∗ \pi^* π一样好,二者策略间的差距存在一个upper bound。
在这里插入图片描述
在这里插入图片描述
此外,问题 1 定义的集合中,最坏模型下的值函数是真实环境中价值函数的下界,如命题 1 所示
在这里插入图片描述
那门最大化这个下界便是实现在真实MDP的价值优化。为了问题1,提出RAMBO算法。

RAMBO

Model Gradient

问题1对模型的优化是最小化函数 V T ^ V_{\hat{T}} VT^。因此对价值函数求导得到
∇ ϕ V ϕ π = E s ∼ d ϕ π , a ∼ π , ( s ′ , r ) ∼ T ^ ϕ [ ( r + γ V ϕ π ( s ′ ) − Q ϕ π ( s , a ) ) ⋅ ∇ ϕ log ⁡ T ^ ϕ ( s ′ , r ∣ s , a ) ] \nabla_\phi V_\phi^\pi=\mathbb{E}_{s\sim d_\phi^\pi,a\sim\pi,(s^{\prime},r)\sim\widehat{T}_\phi}\left[(r+\gamma V_\phi^\pi(s^{\prime})-Q_\phi^\pi(s,a))\cdot\nabla_\phi\log\widehat{T}_\phi(s^{\prime},r|s,a)\right] ϕVϕπ=Esdϕπ,aπ,(s,r)T ϕ[(r+γVϕπ(s)Qϕπ(s,a))ϕlogT ϕ(s,rs,a)]
采用actor-critic方法对策略与Q进行优化。因此,此处的Q函数同时用于策略以及模型的优化。

Adversarial Model Training

对于问题1 中还有一个对于模型的约束项,采用拉格朗日方法得到如下优化
max ⁡ λ ≥ 0 min ⁡ T ^ ϕ ( L ( T ^ , λ ) : = V ϕ π + λ ( E D [ T V ( T ^ M L E ( ⋅ ∣ s , a ) , T ^ ϕ ( ⋅ ∣ s , a ) ) 2 ] − ξ ) ) , \max\limits_{\lambda\geq0}\min\limits_{\widehat{T}_{\phi}}\Big(L(\hat{T},\lambda):=V_{\phi}^{\pi}+\lambda\big(\mathbb{E}_{\mathcal{D}}\big[\mathrm{TV}(\widehat{T}_{\mathbf{MLE}}(\cdot|s,a),\widehat{T}_{\phi}(\cdot|s,a))^{2}\big]-\xi\big)\Big), λ0maxT ϕmin(L(T^,λ):=Vϕπ+λ(ED[TV(T MLE(s,a),T ϕ(s,a))2]ξ)),
实验发现固定乘子参数值的效果更好,因此将上式转化为
min ⁡ T ^ ϕ ( λ V ϕ π + E D [ T V ( T ^ M L E ( ⋅ ∣ s , a ) , T ^ ϕ ( ⋅ ∣ s , a ) ) 2 ] ) . \min_{\widehat{T}_{\phi}}\Big(\lambda V_{\phi}^{\pi}+\mathbb{E}_{\mathcal{D}}\Big[\mathrm{TV}(\widehat{T}_{\mathrm{MLE}}(\cdot|s,a),\widehat{T}_{\phi}(\cdot|s,a))^{2}]\Big). T ϕmin(λVϕπ+ED[TV(T MLE(s,a),T ϕ(s,a))2]).
为了方便计算,直接用MLE优化模型得到
L ϕ = λ V ϕ π − E ( s , a , r , s ′ ) ∼ D [ log ⁡ T ^ ϕ ( s ′ , r ∣ s , a ) ] . \mathcal{L}_\phi=\lambda V_\phi^\pi-\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\big[\log\widehat{T}_\phi(s',r|s,a)\big]. Lϕ=λVϕπE(s,a,r,s)D[logT ϕ(s,rs,a)].
其中对 V V V的梯度计算采用上一节的Model Gradient,而所采用的样本则需要模型与当前策略产生,因此采用MBPO的集成模型构建环境模型,进行k-steps 的rollout产生训练数据。

伪代码

在这里插入图片描述

results

在这里插入图片描述

  • 13
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值