强化学习原理入门-Day2:Bellman方程
1、状态值函数的计算
1)某个状态的值函数等于该状态下所有状态行为值函数
q
π
(
s
,
a
)
q_\pi(s,a)
qπ(s,a)的加权和,即:
v
π
(
s
)
=
E
π
[
∑
a
∈
A
π
(
a
∣
s
)
q
π
(
s
∣
a
)
]
v_{\pi}(s)=E_\pi[\sum_{a\in A}\pi(a|s)q_\pi(s|a)]
vπ(s)=Eπ[∑a∈Aπ(a∣s)qπ(s∣a)]
2)这里的权重就是该状态下采取该行为的概率, 即策略
π
(
a
∣
s
)
\pi(a|s)
π(a∣s)。
2、状态行为值函数
状态行为值函数等于该状态、该行为执行后的即时奖励(的期望)。加上它所导致的所有下一步状态的折减后状态值函数 v π ( s ) v_\pi(s) vπ(s)的加权和。(权重是改状态下,该行为所导致的下一步状态的概率,即状态转移概率矩阵.)
其中:
q
π
(
s
,
a
)
=
R
s
a
+
γ
∑
s
′
∈
S
P
S
S
′
a
v
π
(
s
′
)
q_\pi(s,a)=R_s^a+\gamma\sum_{s^{'}\in S}P^a_{SS^{'} }v_\pi(s^{'})
qπ(s,a)=Rsa+γ∑s′∈SPSS′avπ(s′)
R
s
a
=
E
[
R
t
+
1
∣
S
t
=
s
,
A
t
=
a
]
R_s^a=E[R_{t+1}|S_t=s,A_t=a]
Rsa=E[Rt+1∣St=s,At=a]
Bellman方程其实是
v
π
(
s
)
v_\pi(s)
vπ(s)和
q
π
(
s
,
a
)
q_{\pi}(s,a)
qπ(s,a)自身以及相互之间的递推关系。
状态值函数的递归关系:
v
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
(
R
s
a
+
γ
∑
s
′
∈
S
P
s
s
′
a
v
π
(
s
′
)
)
v_\pi(s)=\sum_{a\in A}\pi(a|s)(R_s^a+\gamma \sum_ {s^{'}\in S}P_{ss^{'}}^av_\pi(s^{'}))
vπ(s)=a∈A∑π(a∣s)(Rsa+γs′∈S∑Pss′avπ(s′))
状态行为值函数之间的递归关系:
q
π
(
s
,
a
)
=
R
s
a
+
γ
∑
s
′
∈
S
P
s
s
′
∑
a
′
∈
A
π
(
a
′
∣
s
′
q
π
(
s
′
,
a
′
)
)
q_\pi(s,a)=R_s^a+\gamma \sum_{s^{'}\in S}P_{ss^{'}}\sum_{a^{'}\in A}\pi(a^{'}|s^{'}q_{\pi}(s^{'},a^{'}))
qπ(s,a)=Rsa+γs′∈S∑Pss′a′∈A∑π(a′∣s′qπ(s′,a′))
根据公式计算
s
4
s_4
s4的状态值函数:
v
(
s
4
)
=
0.5
×
(
1
+
0.2
×
(
−
1.3
)
+
0.3
×
2.7
+
0.4
×
7.4
)
+
0.5
×
10
v(s_4)=0.5\times(1+0.2\times(-1.3)+0.3\times2.7+0.4\times7.4)+0.5\times10
v(s4)=0.5×(1+0.2×(−1.3)+0.3×2.7+0.4×7.4)+0.5×10
3、最优价值函数
3.1、最优状态值函数
最优值函数 v ∗ ( s ) v_*(s) v∗(s)是在从所有策略产生的状态值函数中,选取使状态s价值最大的函数,即: v ∗ ( s ) = max π v π ( s ) v_*(s)={\max\limits_{\pi}} v_\pi(s) v∗(s)=πmaxvπ(s)。
3.2、最优状态行为值函数
最优状态行为值函数 q ∗ ( s , a ) q^*(s,a) q∗(s,a)为在所有策略中最大的状态-行为值函数,即 q ∗ ( s , a ) = max π q π ( s , a ) q^*(s,a)=\max\limits_\pi q_\pi(s,a) q∗(s,a)=πmaxqπ(s,a)。