马尔可夫决策过程组成
策略
智能体的策略policy通常用 π \pi π 表示,即 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi (a|s)=P(A_t=a|S_t=s) π(a∣s)=P(At=a∣St=s) ,在输入状态s的情况下采取动作a的概率。
状态价值函数
价值定义为从状态出发遵循策略能获得的期望回报,数学表达为:
V
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
V^{\pi}(s)=\mathbb{E}_\pi [G_t|S_t=s]
Vπ(s)=Eπ[Gt∣St=s]
动作价值函数
遵循策略时,对当前状态 s 执行动作 a 得到的期望回报:
Q
π
(
s
,
a
)
=
E
π
[
G
t
∣
S
t
=
s
,
A
t
=
a
]
Q^\pi(s,a)=\mathbb{E}_\pi[G_t|S_t=s,A_t=a]
Qπ(s,a)=Eπ[Gt∣St=s,At=a]
在使用该策略的情况下,状态s的价值(期望回报)等于该状态下基于此策略采用所有动作的概率与相应价值相乘的和
V
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
Q
π
(
s
,
a
)
V^\pi(s)=\sum_{a\in A}\pi(a|s)Q^\pi(s,a)
Vπ(s)=a∈A∑π(a∣s)Qπ(s,a)
贝尔曼期望方程
在贝尔曼方程中加上“期望”二字是为了与接下来的贝尔曼最优方程进行区分。
V
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
=
E
π
[
R
t
+
γ
G
t
+
1
∣
S
t
=
s
]
\begin{aligned} V^{\pi}(s)&=\mathbb{E}_\pi [G_t|S_t=s]\\ &=\mathbb{E}_\pi [R_t+\gamma G_{t+1}|S_t=s] \end{aligned}
Vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+γGt+1∣St=s]
因为 r 是奖励的期望,那么该策略下的价值为
V
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
(
r
(
s
,
a
)
+
γ
E
π
[
G
t
+
1
∣
S
t
=
s
]
)
V^\pi(s)=\sum_{a\in A}\pi(a|s)(r(s,a)+\gamma \mathbb{E}_\pi [ G_{t+1}|S_t=s])
Vπ(s)=a∈A∑π(a∣s)(r(s,a)+γEπ[Gt+1∣St=s])
注意后面是
G
t
+
1
G_{t+1}
Gt+1 ,而不是
G
t
G_t
Gt ,那么就需要将下一个状态是什么的所有可能性包括在内进行计算,因此引出状态转移概率,得到状态价值函数的贝尔曼方程:
V
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
(
r
(
s
,
a
)
+
γ
∑
s
′
∈
S
p
(
s
′
∣
s
,
a
)
V
π
(
s
′
)
)
V^\pi(s)=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\right)
Vπ(s)=a∈A∑π(a∣s)(r(s,a)+γs′∈S∑p(s′∣s,a)Vπ(s′))
下一个状态的概率乘以下一个状态的期望,求和之后,则为所有可能发生的状态对应的期望的期望。
去掉前面的策略求和,可得动作价值函数的贝尔曼方程:
Q
π
(
s
,
a
)
=
r
(
s
,
a
)
+
γ
∑
s
′
∈
S
p
(
s
′
∣
s
,
a
)
∑
a
′
∈
A
π
(
a
′
∣
s
′
)
Q
π
(
s
′
,
a
′
)
Q^{\pi}(s,a)=r(s,a)+\gamma\sum_{s^{\prime}\in S}p(s^{\prime}|s,a)\sum_{a^{\prime}\in A}\pi(a^{\prime}|s^{\prime})Q^\pi(s^{\prime},a^{\prime})
Qπ(s,a)=r(s,a)+γs′∈S∑p(s′∣s,a)a′∈A∑π(a′∣s′)Qπ(s′,a′)
最优策略
总有一个策略大于等于所有策略,称之为最优策略。
V
∗
(
s
)
=
max
a
∈
A
{
r
(
s
,
a
)
+
γ
∑
s
′
∈
S
p
(
s
′
∣
s
,
a
)
V
∗
(
s
′
)
}
Q
∗
(
s
,
a
)
=
r
(
s
,
a
)
+
γ
∑
s
′
∈
S
p
(
s
′
∣
s
,
a
)
max
a
′
∈
A
Q
∗
(
s
′
,
a
′
)
\begin{gathered}V^*(s)=\max_{a\in\mathcal{A}}\{r(s,a)+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)V^*(s^{\prime})\}\\Q^*(s,a)=r(s,a)+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)\max_{a^{\prime}\in\mathcal{A}}Q^*(s^{\prime},a^{\prime})\end{gathered}
V∗(s)=a∈Amax{r(s,a)+γs′∈S∑p(s′∣s,a)V∗(s′)}Q∗(s,a)=r(s,a)+γs′∈S∑p(s′∣s,a)a′∈AmaxQ∗(s′,a′)