Intro
Robust Adversarial Model-Based Offline RL (RAMBO): 一种新的基于模型的离线强化学习方法。
将问题表述为与对抗性环境模型的两玩家零和博弈。 模型被训练以最小化价值函数,同时仍然准确预测数据集中的转换,迫使策略在数据集未覆盖的区域采取保守行动。通过交替优化策略和对抗性地优化模型来近似解决两玩家博弈。
Method
鲁棒对抗强化学习(RARL)可以看作2-players的零和游戏,其公式化表达为
π
=
arg
max
π
∈
Π
min
π
ˉ
∈
Π
ˉ
V
M
π
,
π
ˉ
\pi=\arg\max_{\pi\in\Pi}\min_{\bar{\pi}\in\bar{\Pi}}V_M^{\pi,\bar{\pi}}
π=argmaxπ∈Πminπˉ∈ΠˉVMπ,πˉ。本文同样基于RARL的架构,但是将对手策略
π
ˉ
\bar{\pi}
πˉ设定为从离线数据中学习的环境动力学习模型
T
(
⋅
∣
s
,
a
)
T(\cdot|s,a)
T(⋅∣s,a)
问题形式化为
T
^
(
s
′
,
r
∣
s
,
a
)
\widehat{T}(s',r|s,a)
T
(s′,r∣s,a)表示优化得到的动力学习模型。该问题受限于数据集D,对于D之外的数据没有限制。而CPPO则给出一个理论保证问题 1 输出一个策略
π
\pi
π,有较高概率与数据集覆盖的状态-动作分布所得到的任意策略
π
∗
\pi^*
π∗一样好,二者策略间的差距存在一个upper bound。
此外,问题 1 定义的集合中,最坏模型下的值函数是真实环境中价值函数的下界,如命题 1 所示
那门最大化这个下界便是实现在真实MDP的价值优化。为了问题1,提出RAMBO算法。
RAMBO
Model Gradient
问题1对模型的优化是最小化函数
V
T
^
V_{\hat{T}}
VT^。因此对价值函数求导得到
∇
ϕ
V
ϕ
π
=
E
s
∼
d
ϕ
π
,
a
∼
π
,
(
s
′
,
r
)
∼
T
^
ϕ
[
(
r
+
γ
V
ϕ
π
(
s
′
)
−
Q
ϕ
π
(
s
,
a
)
)
⋅
∇
ϕ
log
T
^
ϕ
(
s
′
,
r
∣
s
,
a
)
]
\nabla_\phi V_\phi^\pi=\mathbb{E}_{s\sim d_\phi^\pi,a\sim\pi,(s^{\prime},r)\sim\widehat{T}_\phi}\left[(r+\gamma V_\phi^\pi(s^{\prime})-Q_\phi^\pi(s,a))\cdot\nabla_\phi\log\widehat{T}_\phi(s^{\prime},r|s,a)\right]
∇ϕVϕπ=Es∼dϕπ,a∼π,(s′,r)∼T
ϕ[(r+γVϕπ(s′)−Qϕπ(s,a))⋅∇ϕlogT
ϕ(s′,r∣s,a)]
采用actor-critic方法对策略与Q进行优化。因此,此处的Q函数同时用于策略以及模型的优化。
Adversarial Model Training
对于问题1 中还有一个对于模型的约束项,采用拉格朗日方法得到如下优化
max
λ
≥
0
min
T
^
ϕ
(
L
(
T
^
,
λ
)
:
=
V
ϕ
π
+
λ
(
E
D
[
T
V
(
T
^
M
L
E
(
⋅
∣
s
,
a
)
,
T
^
ϕ
(
⋅
∣
s
,
a
)
)
2
]
−
ξ
)
)
,
\max\limits_{\lambda\geq0}\min\limits_{\widehat{T}_{\phi}}\Big(L(\hat{T},\lambda):=V_{\phi}^{\pi}+\lambda\big(\mathbb{E}_{\mathcal{D}}\big[\mathrm{TV}(\widehat{T}_{\mathbf{MLE}}(\cdot|s,a),\widehat{T}_{\phi}(\cdot|s,a))^{2}\big]-\xi\big)\Big),
λ≥0maxT
ϕmin(L(T^,λ):=Vϕπ+λ(ED[TV(T
MLE(⋅∣s,a),T
ϕ(⋅∣s,a))2]−ξ)),
实验发现固定乘子参数值的效果更好,因此将上式转化为
min
T
^
ϕ
(
λ
V
ϕ
π
+
E
D
[
T
V
(
T
^
M
L
E
(
⋅
∣
s
,
a
)
,
T
^
ϕ
(
⋅
∣
s
,
a
)
)
2
]
)
.
\min_{\widehat{T}_{\phi}}\Big(\lambda V_{\phi}^{\pi}+\mathbb{E}_{\mathcal{D}}\Big[\mathrm{TV}(\widehat{T}_{\mathrm{MLE}}(\cdot|s,a),\widehat{T}_{\phi}(\cdot|s,a))^{2}]\Big).
T
ϕmin(λVϕπ+ED[TV(T
MLE(⋅∣s,a),T
ϕ(⋅∣s,a))2]).
为了方便计算,直接用MLE优化模型得到
L
ϕ
=
λ
V
ϕ
π
−
E
(
s
,
a
,
r
,
s
′
)
∼
D
[
log
T
^
ϕ
(
s
′
,
r
∣
s
,
a
)
]
.
\mathcal{L}_\phi=\lambda V_\phi^\pi-\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\big[\log\widehat{T}_\phi(s',r|s,a)\big].
Lϕ=λVϕπ−E(s,a,r,s′)∼D[logT
ϕ(s′,r∣s,a)].
其中对
V
V
V的梯度计算采用上一节的Model Gradient,而所采用的样本则需要模型与当前策略产生,因此采用MBPO的集成模型构建环境模型,进行k-steps 的rollout产生训练数据。