1. 强化学习算法的形式化描述
定义1个离散时间的折扣马尔科夫决策过程
M
=
<
S
,
A
,
P
,
R
,
γ
>
M=<S,A,P,R,\gamma>
M=<S,A,P,R,γ>,其中,S,A,P,R,
γ
\gamma
γ分别为状态空间,动作空间,状态转移概率,立即回报函数,折扣因子。T为总的时间步,
τ
\tau
τ为一个轨迹序列,
τ
=
(
s
0
,
a
0
,
r
0
,
s
1
,
a
1
,
r
1
,
⋯
)
\tau =(s_0,a_0,r_0,s_1,a_1,r_1,\cdots)
τ=(s0,a0,r0,s1,a1,r1,⋯),对应累积回报
R
=
∑
t
=
0
T
γ
k
r
t
R=\sum_{t=0}^T\gamma^kr_t
R=∑t=0Tγkrt,强化学习的目标是:
找到最优策略
π
\pi
π,使得该策略下,累积回报期望最大,即:
π
=
arg
max
π
R
(
τ
)
\pi=\arg\max_\pi R(\tau)
π=argmaxπR(τ)
总之,强化学习的目标就是:
找到最优策略!!!
2. 何谓最优策略
2.1 两个策略的优劣
已知策略
π
a
\pi_a
πa和
π
b
\pi_b
πb,若对
∀
s
∈
S
\forall s\in S
∀s∈S,都有
V
π
a
(
s
)
≥
V
π
b
(
s
)
V_{\pi_a}(s)\ge V_{\pi_b}(s)
Vπa(s)≥Vπb(s),则称
π
a
\pi_a
πa优于
π
b
\pi_b
πb,记作:
π
a
≥
π
b
\pi_a\ge \pi_b
πa≥πb
用通俗的话讲:若策略A在环境处于任何状态下,都比策略B能获得更多的累积回报,则A优于B。例如:若围棋手A在任何棋局下,都比围棋手B,更快地赢得棋局,则说明A采用的策略优于B采用的策略。
2.2 最优策略
对于任何马尔科夫决策过程,在所有可能采取的策略空间中,总存在一个策略
π
∗
\pi^*
π∗,优于其他所有策略,则称该策略为该过程的最优策略,即:
π
∗
≥
π
,
∀
π
\pi^*\ge\pi, \forall \pi
π∗≥π,∀π
3. 求解最优策略
由最优行为值函数及最优状态值函数的定义可知,策略最优时,值函数也最优,反过来值最优,策略也最优。
最优策略是确定性策略,因而最优策略可用函数
π
∗
(
s
)
\pi^*(s)
π∗(s)表示,输出的是状态s下的最优动作。
(1)已知
V
∗
V^*
V∗,求
π
∗
(
s
)
\pi^*(s)
π∗(s)
π
∗
(
s
)
=
arg
max
a
∈
A
[
R
s
a
+
γ
∑
s
′
∈
S
P
s
s
′
a
V
∗
(
s
′
)
]
\pi^*(s)=\arg\max_{a\in A}\left[ R_s^a+\gamma\sum_{s'\in S}P_{ss'}^aV^*(s') \right]
π∗(s)=arga∈Amax[Rsa+γs′∈S∑Pss′aV∗(s′)]
(2)已知
Q
∗
(
s
,
a
)
Q^*(s,a)
Q∗(s,a),求
π
∗
(
s
)
\pi^*(s)
π∗(s)
π
∗
(
s
)
=
arg
max
a
∈
A
Q
∗
(
s
,
a
)
\pi^*(s)=\arg\max_{a\in A}Q^*(s,a)
π∗(s)=arga∈AmaxQ∗(s,a)