Revisiting Bellman Errors for Offline Model Selection
**Offline reinforcement learning (ORL)离线强化学习:**与在线强化学习相对的一个概念,ORL有固定的数据集,数据是从静态数据集获取的;在线强化学习与环境有交互演进,数据是动态的从环境获取的。
**优点:**由于不需要和环境实时交互,ORL为研究的经济性和安全性提供了保障,在自动驾驶、健康医疗等领域中可以使用。
离线强化学习的数学模型
**静态数据集:**D={(s,a,r,s’)},在状态s下,采取动作a,得到收益r,系统转移到新的状态s’。
Q-函数:是一个state-action函数。例如如下Q-函数
Q
π
(
s
,
a
)
=
E
π
[
∑
t
=
0
∞
γ
t
R
t
∣
S
0
=
s
,
A
0
=
a
]
Q^{\pi } \left ( s,a \right ) =\mathbb{E} _{\pi}[\sum_{t=0}^{\infty } \gamma ^{t} R_{t}|S_{0}=s,A_{0}=a ]
Qπ(s,a)=Eπ[t=0∑∞γtRt∣S0=s,A0=a]
其中,
E
π
E_{\pi}
Eπ代表马尔科夫决策过程在策略
π
\pi
π下的期望收益。
γ
∈
[
0
,
1
)
\gamma \in [0,1)
γ∈[0,1) 为折扣系数。
这篇文章提出的离线模型选择offline model selection(OMS)问题:设有备选集合
Q
=
{
Q
1
,
Q
2
,
⋯
,
Q
M
}
\mathcal{Q} =\left \{ {Q_{1},Q_{2}, \cdots ,Q_{M}} \right \}
Q={Q1,Q2,⋯,QM},目标是选择最好的Q函数。
思考:折扣系数是变量,不同的折扣系数对应不同的Q函数。
Bellman误差
Bellman算子
B
∗
\mathcal{B} ^{*}
B∗ :
B
∗
Q
(
s
,
a
)
=
E
[
R
t
+
γ
m
a
x
a
′
∈
A
Q
(
S
t
+
1
,
a
′
)
∣
S
t
=
s
,
A
t
=
a
]
\mathcal{B} ^{*}Q(s,a)=\mathbb{E} [R_{t}+\gamma \underset{a'\in A}{max}Q(S_{t+1},a')|S_{t}=s,A_{t}=a]
B∗Q(s,a)=E[Rt+γa′∈AmaxQ(St+1,a′)∣St=s,At=a]
Bellman误差:
(
Q
−
B
∗
Q
)
(
s
,
a
)
(Q-\mathcal{B} ^{*}Q)(s,a)
(Q−B∗Q)(s,a),性质为当Q为最优的时候,Bellman误差为0。
对于一个
Q
m
Q_{m}
Qm的评价可以使用均方Bellman误差,
E
(
s
,
a
)
∼
P
μ
[
(
Q
m
(
s
,
a
)
−
(
B
∗
Q
m
)
(
s
,
a
)
)
2
]
\mathbb{E}_{(s,a)\sim P^{\mu }}[(Q_{m}(s,a)-(\mathcal{B} ^{*}Q_{m})(s,a))^{2}]
E(s,a)∼Pμ[(Qm(s,a)−(B∗Qm)(s,a))2]