Intro
文章研究了基于模型的离线强化学习(RL),旨在通过利用先前收集的静态数据集和动态模型来寻找高回报的策略。虽然通过重用静态数据集学习动态模型,其泛化能力如果得到适当利用,可以促进策略学习。然而,现有工作通过奖励惩罚来量化预测动态的不确定性,可能会导致模型利用和风险规避之间的意外权衡。因此,本文提出一种新方法,通过维持一个动态的信念分布,并通过对信念进行偏向悲观的采样来评估/优化策略。这种采样过程基于离线RL的交替马尔可夫博弈(AMG)公式,自然地引入了一种更新的动态信念,称为"悲观主义调节动态信念"(PMDB)。为了改进策略,作者设计了一种迭代正则化策略优化算法,并在一定条件下保证了单调改进。
Method
以往基于模型的方法,通过对模型预测的不确定性作为reward的惩罚项,一定程度导致保守行为估计。本文方法不采用对不确定性的度量。而是通过交替马尔可夫博弈推导出一种基于动态信念分布悲观采样方法来评估策略与价值函数。
AMG 与 Offline RL
AMG(交替马尔可夫游戏)指由2-players构成的零和博弈,其构成为 ( S , S ˉ , A , A ˉ , G , r , ρ 0 , γ ) (\mathcal{S},\bar{\mathcal{S}},\mathcal{A},\bar{\mathcal{A}},G,r,\rho_{0},\gamma) (S,Sˉ,A,Aˉ,G,r,ρ0,γ)。其状态转台转移为 G ( s ˉ ∣ s , a ) G(\bar{s}|s,a) G(sˉ∣s,a)与 G ( s ∣ s ˉ , a ˉ ) G(s|\bar{s},\bar{a}) G(s∣sˉ,aˉ)。在每一轮中,主玩家收到奖励者 r ( s , a ) r(s, a) r(s,a),次玩家收到其负对应奖励 − r ( s , a ) -r(s, a) −r(s,a)。
在Offline RL中,对于主玩家,其状态空间S、动作空间A和奖励函数r与原始MDP中的相同。在主要玩家行动之后,游戏发出一组N大小的系统转换候选者
T
s
a
\mathcal{T}_{sa}
Tsa,该集合随后充当次要玩家的状态。形式上,
T
s
a
\mathcal{T}_{sa}
Tsa的产生是根据
G
(
s
ˉ
=
T
s
a
∣
s
,
a
)
=
∏
τ
s
a
∈
T
s
a
P
T
s
a
(
τ
s
a
)
,
G\left(\bar{s}=\mathcal{T}^{sa}|s,a\right)=\prod_{\tau^{sa}\in\mathcal{T}^{sa}}\mathbb{P}_T^{sa}(\tau^{sa}),
G(sˉ=Tsa∣s,a)=τsa∈Tsa∏PTsa(τsa),
其中
τ
\tau
τ表示合理的系统过渡,
P
\mathbb{P}
P则是表示其信念分布。此时
T
s
a
\mathcal{T}_{sa}
Tsa中的元素则是相互独立且同分布,天然的将不确定性引入进每一步的预测中。为了区分鲁棒RL中的不确定性集合,我们称之为候选集合。
次玩家将以候选集合作为状态,也可以作为动作表示次要玩家的行动是从候选集合中选择一个系统转换。此时次玩家将由候选集中采样的转换函数得到下一个状态
s
′
s'
s′
G
(
s
′
∣
s
ˉ
=
T
s
a
,
a
ˉ
=
τ
s
a
)
=
τ
s
a
(
s
′
)
,
G\left(s'|\bar{s}=\mathcal{T}^{sa},\bar{a}=\tau^{sa}\right)=\tau^{sa}(s'),
G(s′∣sˉ=Tsa,aˉ=τsa)=τsa(s′),
主玩家接受状态
s
′
s'
s′,游戏继续。
具有策略π的主要参与者的累积折扣奖励可以写成:
J
(
π
)
:
=
E
ρ
0
,
π
,
P
T
N
⌊
min
⌋
τ
0
∈
T
0
k
[
E
τ
0
,
π
,
P
T
N
⌊
min
⌋
τ
1
∈
T
1
k
⋯
[
E
τ
∞
,
π
[
∑
t
=
0
∞
γ
t
r
(
s
t
,
a
t
)
]
]
]
J(\pi):=\mathbb{E}_{\rho_0,\pi,\mathbb{P}_T^N}\lfloor\min\rfloor_{\tau_0\in\mathcal{T}_0}^k\left[\mathbb{E}_{\tau_0,\pi,\mathbb{P}_T^N}\lfloor\min\rfloor_{\tau_1\in\mathcal{T}_1}^k\cdots\left[\mathbb{E}_{\tau_\infty,\pi}\left[\sum_{t=0}^\infty\gamma^tr(s_t,a_t)\right]\right]\right]
J(π):=Eρ0,π,PTN⌊min⌋τ0∈T0k[Eτ0,π,PTN⌊min⌋τ1∈T1k⋯[Eτ∞,π[t=0∑∞γtr(st,at)]]]
其中
k
∈
{
1
,
2
,
⋯
,
N
}
,
k\in\{1,2,\cdots,N\},
k∈{1,2,⋯,N},, 算子
⌊
min
⌋
x
∈
X
k
f
(
x
)
\lfloor\min\rfloor_{x\in\mathcal{X}}^kf(x)
⌊min⌋x∈Xkf(x)表示第k的最小值。不同的k值代表着次要玩家对未来的奖励表现出不同程度的对抗性或攻击性干扰。从原始MDP的角度来看,这种行为在评估政策时产生了从悲观到乐观的灵活倾向。通过更改N与K可以改变保守估计程度。
为了优化上述问题,提出一种悲观bellman迭代算子
B
N
,
k
π
Q
(
s
,
a
)
=
r
(
s
,
a
)
+
γ
E
P
F
N
[
⌊
min
⌋
τ
∈
T
k
E
τ
,
π
[
Q
(
s
′
,
a
′
)
]
]
.
\mathcal{B}_{N,k}^{\pi}Q(s,a)=r(s,a)+\gamma\mathbb{E}_{\mathbb{P}_{F}^{N}}\Big[\lfloor\min\rfloor_{\tau\in\mathcal{T}}^{k}\mathbb{E}_{\tau,\pi}\left[Q(s^{\prime},a^{\prime})\right]\Big].
BN,kπQ(s,a)=r(s,a)+γEPFN[⌊min⌋τ∈TkEτ,π[Q(s′,a′)]].
Policy Optimization with Pessimism-Modulated Dynamics Belief
然而,对于AMG,评估 J ( π ) J(\pi) J(π)本身涉及内部动态规划过程,如定理1所示。由于 J ( π ) J(\pi) J(π)的每次评估只能产生一个精确的梯度,因此通过基于梯度的方法使 J ( π ) J(\pi) J(π)最大化是低效的。在本节中,考虑Kullback–Leibler(KL)正则化的一系列子问题。解决每个子问题会对策略进行显著的更新,并且子问题的解序列关于 J ( π ) J(\pi) J(π)单调改进。
Iterative Regularized Policy Optimization
基于KL正则的AMG优化目标为
J
ˉ
(
π
;
μ
)
:
=
E
ρ
0
,
π
,
P
T
N
⌊
min
⌋
τ
0
∈
T
0
k
[
E
τ
0
,
π
,
P
T
N
⌊
min
⌋
τ
1
∈
T
1
k
⋯
[
E
τ
∞
,
π
[
∑
t
=
0
∞
γ
t
(
r
(
s
t
,
a
t
)
−
α
D
K
L
(
π
(
⋅
∣
s
t
)
∣
∣
μ
(
⋅
∣
s
t
)
)
)
]
]
]
,
(
9
)
\begin{aligned}\bar{J}(\pi;\mu)&:=\mathbb{E}_{\rho_0,\pi,\mathbb{P}_T^N}\lfloor\min\rfloor_{\tau_0\in\mathcal{T}_0}^k\left[\mathbb{E}_{\tau_0,\pi,\mathbb{P}_T^N}\lfloor\min\rfloor_{\tau_1\in\mathcal{T}_1}^k\cdots\left[\mathbb{E}_{\tau_\infty,\pi}\left[\sum_{t=0}^\infty\gamma^t\left(r(s_t,a_t)-\alpha D_{\mathrm{KL}}\big(\pi(\cdot|s_t)\big|\big|\mu(\cdot|s_t)\big))\right.\right]\right]\right],\quad(9)\end{aligned}
Jˉ(π;μ):=Eρ0,π,PTN⌊min⌋τ0∈T0k[Eτ0,π,PTN⌊min⌋τ1∈T1k⋯[Eτ∞,π[t=0∑∞γt(r(st,at)−αDKL(π(⋅∣st)
μ(⋅∣st)))]]],(9)
这里的想法是将优化的策略约束在参考策略的邻居中,以便在这样一个小的策略区域内充分评估内部问题。
优化上述目标,采用一种soft的bellman算子
B
ˉ
N
,
k
∗
Q
(
s
,
a
)
=
r
(
s
,
a
)
+
γ
E
P
T
N
[
⌊
min
⌋
τ
∈
T
k
E
τ
[
α
log
E
μ
exp
(
1
α
Q
(
s
′
,
a
′
)
)
]
]
.
\bar{\mathcal{B}}_{N,k}^{*}Q(s,a)=r(s,a)+\gamma\mathbb{E}_{\mathbb{P}_{T}^{N}}\left[\lfloor\min\rfloor_{\tau\in\mathcal{T}}^{k}\mathbb{E}_{\tau}\left[\alpha\log\mathbb{E}_{\mu}\exp\left(\frac{1}{\alpha}Q(s',a')\right)\right]\right].
BˉN,k∗Q(s,a)=r(s,a)+γEPTN[⌊min⌋τ∈TkEτ[αlogEμexp(α1Q(s′,a′))]].
求解的策略
π
∗
\pi^*
π∗取决于参考策略μ,并且预先任意设置μ可以导致优化得到次优策略。事实上,可以构造一系列子问题,从最后一个子问题中选择μ作为改进策略。通过不断地解决这些问题,最初参考政策的影响逐渐消除。这就是下面理论所说明的
Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief
解决每个子问题都会对策略进行显著的更新,但在收敛之前,可能需要不断构造子问题,然后准确地解决每个子问会导致不必要的计算。为了便于实际考虑,接下来引入一种平滑演化的参考策略,即对策略参数进行Soft update
对Q值函数更新如下
L
Q
(
θ
)
=
E
(
s
,
a
,
T
)
∼
D
′
[
(
Q
θ
(
s
,
a
)
−
Q
^
A
M
G
(
s
,
a
)
)
2
]
+
E
(
s
,
a
,
s
′
)
∼
D
[
(
Q
θ
(
s
,
a
)
−
Q
^
M
D
P
(
s
,
a
)
)
2
]
,
(
11
)
Q
^
A
M
G
(
s
,
a
)
=
r
(
s
,
a
)
+
γ
⌊
min
⌋
τ
∈
T
k
E
τ
[
α
log
E
π
ϕ
′
exp
(
1
α
Q
θ
′
(
s
′
,
a
′
)
)
]
,
Q
^
M
D
P
(
s
,
a
)
=
r
(
s
,
a
)
+
γ
⋅
α
log
E
π
ϕ
′
exp
(
1
α
Q
θ
′
(
s
′
,
a
′
)
)
,
L_Q(\theta)=\mathbb{E}_{(s,a,\mathcal{T})\sim\mathcal{D}^{\prime}}\bigg[\bigg(Q_\theta(s,a)-\widehat{Q}_{\mathrm{AMG}}(s,a)\bigg)^2\bigg]+\mathbb{E}_{(s,a,s^{\prime})\sim\mathcal{D}}\bigg[\bigg(Q_\theta(s,a)-\widehat{Q}_{\mathrm{MDP}}(s,a)\bigg)^2\bigg],(11)\\ \widehat{Q}_{\mathrm{AMG}}(s,a)=r(s,a)+\gamma\lfloor\min\rfloor_{\tau\in\mathcal{T}}^{k}\mathbb{E}_{\tau}\left[\alpha\log\mathbb{E}_{\pi_{\phi^{\prime}}}\exp\left(\frac1\alpha Q_{\theta^{\prime}}(s^{\prime},a^{\prime})\right)\right],\\\widehat{Q}_{\mathrm{MDP}}(s,a)=r(s,a)+\gamma\cdot\alpha\log\mathbb{E}_{\pi_{\phi^{\prime}}}\exp\left(\frac1\alpha Q_{\theta^{\prime}}(s^{\prime},a^{\prime})\right),
LQ(θ)=E(s,a,T)∼D′[(Qθ(s,a)−Q
AMG(s,a))2]+E(s,a,s′)∼D[(Qθ(s,a)−Q
MDP(s,a))2],(11)Q
AMG(s,a)=r(s,a)+γ⌊min⌋τ∈TkEτ[αlogEπϕ′exp(α1Qθ′(s′,a′))],Q
MDP(s,a)=r(s,a)+γ⋅αlogEπϕ′exp(α1Qθ′(s′,a′)),
其中target Q参数也采用了soft update 。训练完Q后,由定理4最小化以下KL散度
L
P
(
ϕ
)
=
E
s
∼
D
∪
D
′
[
D
K
L
(
π
ϕ
′
(
⋅
∣
s
)
exp
(
1
α
Q
θ
(
s
,
⋅
)
)
E
π
ϕ
′
[
exp
(
1
α
Q
θ
(
s
,
a
)
)
]
∣
∣
π
ϕ
(
⋅
∣
s
)
)
]
=
A
⋅
E
s
∼
D
∪
D
′
,
a
∼
π
ϕ
′
[
exp
(
1
α
Q
θ
(
s
,
a
)
)
log
π
ϕ
(
a
∣
s
)
]
+
B
,
(
14
)
\begin{gathered} L_{P}(\phi) =\mathbb{E}_{s\sim\mathcal{D}\cup\mathcal{D}^{\prime}}\left[D_{\mathrm{KL}}\left(\frac{\pi_{\phi^{\prime}}(\cdot|s)\exp\left(\frac{1}{\alpha}Q_{\theta}(s,\cdot)\right)}{\mathbb{E}_{\pi_{\phi^{\prime}}}\left[\exp\left(\frac{1}{\alpha}Q_{\theta}(s,a)\right)\right]}\right|\Bigg|\pi_{\phi}(\cdot|s)\Bigg)\right]\\ =A\cdot\mathbb{E}_{s\sim\mathcal{D}\cup\mathcal{D}^{\prime}, a{\sim}\pi_{\phi^{\prime}}}\left[\exp\left(\frac{1}{\alpha}Q_{\theta}(s,a)\right)\log\pi_{\phi}(a|s)\right]+B, \end{gathered} ~~~~~(14)
LP(ϕ)=Es∼D∪D′[DKL(Eπϕ′[exp(α1Qθ(s,a))]πϕ′(⋅∣s)exp(α1Qθ(s,⋅))
πϕ(⋅∣s))]=A⋅Es∼D∪D′,a∼πϕ′[exp(α1Qθ(s,a))logπϕ(a∣s)]+B, (14)
其中A,B为常数项。