强化学习教程(1) - 先了解几个公式
对于学习强化学习的好处,大家已经了解很多了,这里就不多叙述了。
开篇有几点想提醒新入门的同学,关于强化学习的难点。
- 首先是要做好啃一些理论和公式的准备,虽然深度强化学习可以做到像调库一样使用成熟算法,但是有扎实的理论基础对于学习前沿论文还是一个必要的选项。
- 第二是对算力的需求要有明确的考虑。比如我们调库可以很容易实现Atari游戏的对战,但是能打败计算机是需要用GPU或其他加速的,想用CPU训练几分钟就能通关还是不现实的。
- 第三是对于强化学习和深度学习编程框架需要有一定的了解,这样一旦遇到问题才有更多的办法将理论转化成工具。
这个小系列教程,我希望能够从理论、理论的代码实现、主要框架和工具、几个实际问题的例子以及强化学习的历史与流派五个方面来说明。
第一步我们先尝试理解透理论,我们先从很多同学最不喜欢看的公式开始说起,这一关突破后,再结合代码看就更容易理解了。
状态、动作和奖励
强化学习的主体是一个Agent,它可以获取环境的状态S,通过动作A来对环境产生影响,最后从环境获取奖励R。强化学习就是一个通过寻找最佳的动作序列来获取最大的奖励的过程。
假设最初的状态为S0,此时实施动作A0,获取奖励R1,之后的状态变成S1,再施以动作A1,获取奖励R2,状态变成S2,以此类推。
我们考虑状态S的概率分布St和奖励R的概率分布Rt。
在后面的符号中,我们使用 P r ( S t = s ) Pr(S_t=s) Pr(St=s)来表示 S t = s S_t=s St=s时的概率。
概率公式
我们定义一个函数
p
(
s
′
,
r
,
s
,
a
)
p(s',r,s,a)
p(s′,r,s,a),其值为
P
r
(
S
t
=
s
′
,
R
t
=
r
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
)
Pr(S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a)
Pr(St=s′,Rt=r∣St−1=s,At−1=a)
为了让前后式看起来更一致些,我们把
p
(
s
′
,
r
,
s
,
a
)
p(s',r,s,a)
p(s′,r,s,a)写作
p
(
s
′
,
r
∣
s
,
a
)
p(s',r | s,a)
p(s′,r∣s,a)
式子写成: p ( s ′ , r ∣ s , a ) = P r ( S t = s ′ , R t = r ∣ S t − 1 = s , A t − 1 = a ) p(s',r | s,a)=Pr(S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a) p(s′,r∣s,a)=Pr(St=s′,Rt=r∣St−1=s,At−1=a)
虽然写法变了,但是对于函数功能没有任何影响。
如果不考虑奖励,我们可以定义一个三元函数,这个函数描述状态转移的概率:
p
(
s
′
,
s
,
a
)
=
P
r
(
S
t
=
s
′
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
)
p(s',s,a)=Pr(S_t=s'|S_{t-1}=s,A_{t-1}=a)
p(s′,s,a)=Pr(St=s′∣St−1=s,At−1=a)
或者写作:
p
(
s
′
∣
s
,
a
)
=
P
r
(
S
t
=
s
′
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
)
p(s'|s,a)=Pr(S_t=s'|S_{t-1}=s,A_{t-1}=a)
p(s′∣s,a)=Pr(St=s′∣St−1=s,At−1=a)
这两个函数的关系也容易理解,3元函数等于4元函数在所有奖励情况下的汇总加和:
p
(
s
′
,
s
,
a
)
=
∑
r
∈
R
p
(
s
′
,
r
,
s
,
a
)
p(s',s,a)=\sum_{r\in R} p(s',r,s,a)
p(s′,s,a)=∑r∈Rp(s′,r,s,a)
或者写作:
p
(
s
′
∣
s
,
a
)
=
∑
r
∈
R
p
(
s
′
,
r
∣
s
,
a
)
p(s' | s,a)=\sum_{r\in R} p(s',r | s,a)
p(s′∣s,a)=∑r∈Rp(s′,r∣s,a)
期望公式
我们再将函数简化成二元的,只有状态s和动作a,这时我们定义这个函数r(s,a)表示对于奖励的数学期望。注意啦,这是个期望函数,所以名字从p变成了r。
我们使用符号 E [ X ] \mathbb{E}[X] E[X]表示随机变量X的数学期望,它的定义为 E [ X ] = ∑ x p ( x ) x \mathbb{E}[X]=\sum_x p(x)x E[X]=∑xp(x)x。也就是等于每一项的值乘以它出现的概率。
我们举个例子,比如掷骰子,点数为1,2,3,4,5,6,出现的概率分别为1/6。
则数学期望为
1
×
1
6
+
2
×
1
6
+
3
×
1
6
+
4
×
1
6
+
5
×
1
6
+
6
×
1
6
=
3.5
1 \times \frac{1}{6}+2 \times \frac{1}{6}+3 \times \frac{1}{6}+4 \times \frac{1}{6}+5 \times \frac{1}{6}+6 \times \frac{1}{6}= 3.5
1×61+2×61+3×61+4×61+5×61+6×61=3.5。
则定义
r
(
s
,
a
)
=
E
[
R
t
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
]
r(s,a)=\mathbb E[R_t| S_{t-1}=s, A_{t-1}=a]
r(s,a)=E[Rt∣St−1=s,At−1=a]
我们将其按定义展开,得到:
r
(
s
,
a
)
=
E
[
R
t
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
]
=
∑
r
∈
R
r
×
∑
s
′
∈
S
p
(
s
′
,
r
∣
s
,
a
)
r(s,a)=\mathbb E[R_t| S_{t-1}=s, A_{t-1}=a]=\sum_{r\in R} r \times \sum_{s'\in S} p(s',r | s,a)
r(s,a)=E[Rt∣St−1=s,At−1=a]=∑r∈Rr×∑s′∈Sp(s′,r∣s,a)
其中, ∑ r ∈ R r \sum_{r\in R} r ∑r∈Rr是收益,而 ∑ s ′ ∈ S p ( s ′ , r ∣ s , a ) \sum_{s'\in S} p(s',r | s,a) ∑s′∈Sp(s′,r∣s,a)是r收益的所有状态的概率和。
最后,我们再定义一个“状态-动作-后继状态”的数学期望的函数 r ( s , a , s ′ ) = E [ R t ∣ S t − 1 = s , A t − 1 = a , S t = s ′ ] r(s,a,s')=\mathbb{E}[R_t | S_{t-1}=s, A_{t-1}=a, S_t = s'] r(s,a,s′)=E[Rt∣St−1=s,At−1=a,St=s′]
因为指定了后继状态,其概率就是四元组函数值除以状态转移函数的值: p ( s ′ , r ∣ s , a ) p ( s ′ ∣ s , a ) \frac{p(s',r | s, a)}{p(s'|s,a)} p(s′∣s,a)p(s′,r∣s,a)。这样我们前面几个函数就串起来了。
再根据数学期望的定义展开,得到:
r
(
s
,
a
,
s
′
)
=
E
[
R
t
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
,
S
t
=
s
′
]
=
∑
r
∈
R
r
×
p
(
s
′
,
r
∣
s
,
a
)
p
(
s
′
∣
s
,
a
)
r(s,a,s')=\mathbb{E}[R_t | S_{t-1}=s, A_{t-1}=a, S_t = s']=\sum_{r\in R}r \times \frac{p(s',r | s, a)}{p(s'|s,a)}
r(s,a,s′)=E[Rt∣St−1=s,At−1=a,St=s′]=∑r∈Rr×p(s′∣s,a)p(s′,r∣s,a)
公式小结
总结一下,我们定义了4个函数,两个概率函数,两个奖励的期望函数:
公式1-1:
p
(
s
′
,
r
∣
s
,
a
)
=
P
r
(
S
t
=
s
′
,
R
t
=
r
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
)
p(s',r | s,a)=Pr(S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a)
p(s′,r∣s,a)=Pr(St=s′,Rt=r∣St−1=s,At−1=a) (四元组函数)
公式1-2:
p
(
s
′
∣
s
,
a
)
=
P
r
(
S
t
=
s
′
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
)
p(s'|s,a)=Pr(S_t=s'|S_{t-1}=s,A_{t-1}=a)
p(s′∣s,a)=Pr(St=s′∣St−1=s,At−1=a) (状态转移函数)
公式1-3:
r
(
s
,
a
)
=
E
[
R
t
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
]
=
∑
r
∈
R
r
×
∑
s
′
∈
S
p
(
s
′
,
r
∣
s
,
a
)
r(s,a)=\mathbb E[R_t| S_{t-1}=s, A_{t-1}=a]=\sum_{r\in R} r \times \sum_{s'\in S} p(s',r | s,a)
r(s,a)=E[Rt∣St−1=s,At−1=a]=∑r∈Rr×∑s′∈Sp(s′,r∣s,a) (奖励的数学期望函数)
公式1-4:
r
(
s
,
a
,
s
′
)
=
E
[
R
t
∣
S
t
−
1
=
s
,
A
t
−
1
=
a
,
S
t
=
s
′
]
=
∑
r
∈
R
r
×
p
(
s
′
,
r
∣
s
,
a
)
p
(
s
′
∣
s
,
a
)
r(s,a,s')=\mathbb{E}[R_t | S_{t-1}=s, A_{t-1}=a, S_t = s']=\sum_{r\in R}r \times \frac{p(s',r | s, a)}{p(s'|s,a)}
r(s,a,s′)=E[Rt∣St−1=s,At−1=a,St=s′]=∑r∈Rr×p(s′∣s,a)p(s′,r∣s,a) ("状态-动作-后继状态"数学期望函数)
其中,四元组函数用的最多。公式部分,一般的书都一笔带过,只有Sutton和Barto的《Reinforcement Learning》讲得比较细,我这里可能更加絮叨一些。
另外,如果强化学习想要入门的话,建议从Sutton这本书开始学起。如果有一个人是强化学习之父的话,那就是Richard Sutton。Sutton在时序差分法和策略梯度法等方面有开创性的贡献。
收益序列
强化学习并不是贪婪法,并不是追究每一步的收益都是最大的。比如说下一局棋,目标是赢得这一局,而不见得是每一步都多吃一个子。这样我们希望获得的最优解,是每一步之和最大化。
这个最大化的收益总和我们记为
G
t
G_t
Gt,则
G
t
=
R
t
+
1
+
R
t
+
2
+
R
t
+
3
+
.
.
.
+
R
T
G_t=R_{t+1}+R_{t+2}+R_{t+3}+...+R_T
Gt=Rt+1+Rt+2+Rt+3+...+RT
不过,上面的公式是在有限步的情况下是可用的。如果针对于无限步的情况,就会获取一个无穷大的结果,这样也就无法求所谓的最大值了。
无穷级数的知识告诉我们,通过增加一个小于1大于0的折扣系数,我们就可以将无穷的序列之和变为一个有穷的值。
加上折扣的公式为:
G
t
=
R
t
+
1
+
γ
R
t
+
2
+
γ
2
R
t
+
3
+
γ
3
R
t
+
4
+
.
.
.
G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\gamma^3R_{t+4}+...
Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+...
用求和符号可以记为:
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
\sum_{k=0}^\infty \gamma^k R_{t+k+1}
∑k=0∞γkRt+k+1
t+1时刻的回报期望和
G
t
+
1
G_{t+1}
Gt+1,使用上面的公式可得:
G
t
+
1
=
R
t
+
2
+
γ
R
t
+
3
+
γ
2
R
t
+
4
+
γ
3
R
t
+
5
+
.
.
.
G_{t+1}=R_{t+2}+\gamma R_{t+3}+\gamma^2R_{t+4}+\gamma^3R_{t+5}+...
Gt+1=Rt+2+γRt+3+γ2Rt+4+γ3Rt+5+...
通过观察可以发现,如果将
G
t
+
1
G_{t+1}
Gt+1乘以
γ
\gamma
γ,则与
G
t
G_t
Gt就差一个
R
t
+
1
R_{t+1}
Rt+1,即:
G
t
=
R
t
+
1
+
γ
G
t
+
1
G_t=R_{t+1}+\gamma G_{t+1}
Gt=Rt+1+γGt+1
这个公式虽然简单,但是后面经常会用到。
我们记作公式1-5:
G
t
=
R
t
+
1
+
γ
G
t
+
1
G_t=R_{t+1}+\gamma G_{t+1}
Gt=Rt+1+γGt+1
我们举个例子来加深记忆,如果
R
t
R_t
Rt是个常数1,而折扣率
γ
<
1
\gamma<1
γ<1,则回报
G
t
=
∑
k
=
0
∞
γ
k
=
1
1
−
γ
G_t=\sum_{k=0}^{\infty}\gamma^k=\frac{1}{1-\gamma}
Gt=∑k=0∞γk=1−γ1
策略函数与动作价值函数
要想改变收益,我们就需要进行一些选择,我们将从状态到选择动作的概率之间的函数叫做策略。
我们用函数
π
(
a
,
s
)
\pi(a,s)
π(a,s)表示
S
t
=
s
,
A
t
=
a
S_t=s, A_t=a
St=s,At=a时的概率。
为了提醒我们对于每个
s
∈
S
s\in S
s∈S,都有一个
a
∈
A
a\in A
a∈A的概率分布,我们把这个函数写成像个条件概率一样的
π
(
a
∣
s
)
\pi(a|s)
π(a∣s)
可表示为:
π
(
a
∣
s
)
=
P
r
[
A
t
=
a
∣
S
t
=
s
]
\pi(a|s)=Pr[A_t=a |S_t=s]
π(a∣s)=Pr[At=a∣St=s]
选择了一个策略之后,我们如何评价这个策略的绩效呢?我们再定义一个价值函数 v π ( s ) v_\pi(s) vπ(s),用来表示从状态s开始,使用 π \pi π策略的收益的期望。
同样,我们可以用
E
π
[
]
\mathbb E_\pi[]
Eπ[]来表示使用策略
π
\pi
π时的数学期望值。
这样,状态价值函数可以定义为:
v
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
v_\pi(s)=\mathbb E_\pi[G_t |S_t=s]
vπ(s)=Eπ[Gt∣St=s]
如果将数学期望用概率Pr来展开的话,可得:
v
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
=
∑
g
g
×
P
r
[
G
t
=
g
∣
S
t
=
s
]
v_\pi(s)=\mathbb E_\pi[G_t |S_t=s]=\sum_g g \times Pr[G_t=g | S_t=s]
vπ(s)=Eπ[Gt∣St=s]=∑gg×Pr[Gt=g∣St=s]
使用折扣公式的话,可得到:
v
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
=
E
π
[
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
∣
S
t
=
s
]
v_\pi(s)=\mathbb E_\pi[G_t |S_t=s]=\mathbb E_\pi[\sum_{k=0}^\infty \gamma^k R_{t+k+1}|S_t=s]
vπ(s)=Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s]
如果不只考虑状态s,还考虑动作a的话,也就是说,在状态s下采用动作a时的策略价值,可以写作:
q
π
(
s
,
a
)
=
E
π
[
G
t
∣
S
t
=
s
,
A
t
=
a
]
=
E
π
[
∑
k
=
0
∞
γ
k
R
t
+
k
+
1
∣
S
t
=
s
,
A
t
=
a
]
q_\pi(s,a)=\mathbb E_\pi[G_t |S_t=s,A_t=a]=\mathbb E_\pi[\sum_{k=0}^\infty \gamma^k R_{t+k+1}|S_t=s,A_t=a]
qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]
公式虽然变长了,但是除了指定了a之外,并没有其它的变化。我们将这个函数
q
π
q_\pi
qπ称为策略
π
\pi
π的动作价值函数。
再代入上节讲到的收益序列的递推关系式,可以得到
公式1-6:
v
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
=
E
π
[
R
t
+
1
+
γ
G
t
+
1
∣
S
t
=
s
]
v_\pi(s)=\mathbb E_\pi[G_t|S_t=s]=\mathbb E_\pi[R_{t+1}+\gamma G_{t+1}| S_t=s]
vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γGt+1∣St=s]
马尔可夫决策过程与贝尔曼方程
下面我们做一道习题,看看大家有没有理解上面的公式。题目为:用t时刻的动作价值函数 q π ( s , a ) q_\pi(s,a) qπ(s,a)来表示状态价值函数 v π ( s ) v_\pi(s) vπ(s)
我们从状态价值函数的定义开始展开:
v
π
(
s
)
=
E
π
[
G
t
∣
S
t
=
s
]
=
∑
g
g
×
P
r
[
G
t
=
g
∣
S
t
=
s
]
v_\pi(s)=\mathbb E_\pi[G_t |S_t=s]=\sum_g g \times Pr[G_t=g | S_t=s]
vπ(s)=Eπ[Gt∣St=s]=∑gg×Pr[Gt=g∣St=s]
我们可以将
P
r
[
G
t
=
g
∣
S
t
=
s
]
Pr[G_t=g | S_t=s]
Pr[Gt=g∣St=s]展开成带动作a的形式
∑
g
g
∑
a
P
r
[
G
t
=
g
,
A
t
=
a
∣
S
t
=
s
]
\sum_g g \sum_a Pr[G_t=g, A_t=a | S_t=s]
∑gg∑aPr[Gt=g,At=a∣St=s]
再用条件概率公式展开一下:
∑
g
g
∑
a
P
r
[
A
t
=
a
∣
S
t
=
s
]
P
r
[
G
t
=
g
∣
S
t
=
s
,
A
t
=
a
]
\sum_g g \sum_a Pr[A_t=a|S_t=s]Pr[G_t=g | S_t=s, A_t=a]
∑gg∑aPr[At=a∣St=s]Pr[Gt=g∣St=s,At=a]
我们再将前面的
∑
g
g
\sum_g g
∑gg移到中间去:
∑
a
P
r
[
A
t
=
a
∣
S
t
=
s
]
∑
g
g
P
r
[
G
t
=
g
∣
S
t
=
s
,
A
t
=
a
]
\sum_a Pr[A_t=a|S_t=s]\sum_g g Pr[G_t=g | S_t=s, A_t=a]
∑aPr[At=a∣St=s]∑ggPr[Gt=g∣St=s,At=a]
∑
g
g
P
r
[
G
t
=
g
∣
S
t
=
s
,
A
t
=
a
]
\sum_g g Pr[G_t=g | S_t=s, A_t=a]
∑ggPr[Gt=g∣St=s,At=a]其实就是
E
[
G
t
∣
S
t
=
s
,
A
t
=
a
]
\mathbb E[G_t|S_t=s, A_t=a]
E[Gt∣St=s,At=a],再进一步看,这不就是
q
π
(
s
,
a
)
q_\pi(s,a)
qπ(s,a)么。
再看前面的
P
r
[
A
t
=
a
∣
S
t
=
s
]
Pr[A_t=a | S_t=s]
Pr[At=a∣St=s],就是
π
(
a
∣
s
)
\pi(a|s)
π(a∣s)嘛,不能前面加个
∑
a
\sum_a
∑a就不认识了。
将上面的结果整理下:
公式1-7:
v
π
(
s
)
=
∑
a
π
(
a
∣
s
)
q
π
(
s
,
a
)
v_\pi(s)=\sum_a \pi(a|s)q_\pi(s,a)
vπ(s)=∑aπ(a∣s)qπ(s,a)。
我们继续努力,再来尝试用t+1时刻的状态价值函数表示t时刻的动作价值函数。思路还是跟上面的类似:
E
π
[
G
t
+
1
∣
S
t
=
s
,
A
t
=
a
]
\mathbb E_\pi[G_{t+1}|S_t=s,A_t=a]
Eπ[Gt+1∣St=s,At=a]
=
∑
g
g
P
r
[
G
t
+
1
=
g
∣
S
t
=
s
,
A
t
=
a
]
=\sum_g g Pr[G_{t+1}=g | S_t=s, A_t=a]
=∑ggPr[Gt+1=g∣St=s,At=a]
=
∑
g
g
∑
s
′
P
r
[
S
t
+
1
=
s
′
,
G
t
+
1
=
g
∣
S
t
=
s
,
A
t
=
a
]
=\sum_g g \sum_{s'}Pr[S_{t+1}=s', G_{t+1}=g | S_t=s, A_t=a]
=∑gg∑s′Pr[St+1=s′,Gt+1=g∣St=s,At=a]
=
∑
g
g
∑
s
′
P
r
[
S
t
+
1
=
s
′
∣
S
t
=
s
,
A
t
=
a
]
P
r
[
G
t
+
1
=
g
∣
S
t
=
s
,
A
t
=
a
,
S
t
+
1
=
s
′
]
=\sum_g g \sum_{s'}Pr[S_{t+1}=s' | S_t=s, A_t=a]Pr[G_{t+1}=g| S_t=s, A_t=a, S_{t+1}=s']
=∑gg∑s′Pr[St+1=s′∣St=s,At=a]Pr[Gt+1=g∣St=s,At=a,St+1=s′]
推到这一步,我们终于要让马尔可夫性出马了,要不然就推不下去了。
马尔可夫性是指,当前状态只与上一个状态相关,而与之前的状态无关。
所以我们可以将
S
t
=
s
,
A
t
=
a
S_t=s, A_t=a
St=s,At=a这样跟上个状态相关的数据去掉。
=
∑
g
g
∑
s
′
P
r
[
S
t
+
1
=
s
′
∣
S
t
=
s
,
A
t
=
a
]
P
r
[
G
t
+
1
=
g
∣
S
t
+
1
=
s
′
]
=\sum_g g \sum_{s'}Pr[S_{t+1}=s' | S_t=s, A_t=a]Pr[G_{t+1}=g| S_{t+1}=s']
=∑gg∑s′Pr[St+1=s′∣St=s,At=a]Pr[Gt+1=g∣St+1=s′]
=
∑
s
′
P
r
[
S
t
+
1
=
s
′
∣
S
t
=
s
,
A
t
=
a
]
E
π
[
G
t
+
1
=
g
∣
S
t
+
1
=
s
′
]
=\sum_{s'}Pr[S_{t+1}=s' | S_t=s, A_t=a] \mathbb{E}_{\pi}[G_{t+1}=g | S_{t+1}=s']
=∑s′Pr[St+1=s′∣St=s,At=a]Eπ[Gt+1=g∣St+1=s′]
=
∑
s
′
p
(
s
′
∣
s
,
a
)
v
π
(
s
′
)
=\sum_{s'}p(s'|s,a)v_{\pi}(s')
=∑s′p(s′∣s,a)vπ(s′)
q
π
(
s
,
a
)
=
E
π
[
G
t
∣
S
t
=
s
,
A
t
=
a
]
q_{\pi}(s,a)=\mathbb{E}_{\pi}[G_t|S_t=s,A_t=a]
qπ(s,a)=Eπ[Gt∣St=s,At=a]
=
E
π
[
R
t
+
1
+
γ
G
t
+
1
∣
S
t
=
s
,
A
t
=
a
]
=\mathbb{E}_{\pi}[R_{t+1}+\gamma G_{t+1} | S_t=s, A_t=a]
=Eπ[Rt+1+γGt+1∣St=s,At=a]
=
E
π
[
R
t
+
1
∣
S
t
=
s
,
A
t
=
a
]
+
γ
E
π
[
G
t
+
1
∣
S
t
=
s
,
A
t
=
a
]
=\mathbb{E}_{\pi}[R_{t+1} |S_t=s, A_t=a]+ \gamma\mathbb{E}_{\pi}[ G_{t+1} | S_t=s, A_t=a]
=Eπ[Rt+1∣St=s,At=a]+γEπ[Gt+1∣St=s,At=a]
=
∑
s
′
,
r
p
(
s
′
,
r
∣
s
,
a
)
[
r
+
γ
v
π
(
s
′
)
]
=\sum_{s',r}p(s',r|s,a)[r + \gamma v_{\pi}(s')]
=∑s′,rp(s′,r∣s,a)[r+γvπ(s′)]
我们整理一下:
公式1-8:
q
π
(
s
,
a
)
=
∑
s
′
,
r
p
(
s
′
,
r
∣
s
,
a
)
[
r
+
γ
v
π
(
s
′
)
]
q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r + \gamma v_{\pi}(s')]
qπ(s,a)=∑s′,rp(s′,r∣s,a)[r+γvπ(s′)]
我们把公式1-6跟公式1-5
v
π
(
s
)
=
∑
a
π
(
a
∣
s
)
q
π
(
s
,
a
)
v_\pi(s)=\sum_a \pi(a|s)q_\pi(s,a)
vπ(s)=∑aπ(a∣s)qπ(s,a) 结合起来,得到:
公式1-9:
v
π
(
s
)
=
∑
a
π
(
a
∣
s
)
∑
s
′
,
r
p
(
s
′
,
r
∣
s
,
a
)
[
r
+
γ
v
π
(
s
′
)
]
v_\pi(s)=\sum_a \pi(a|s) \sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')]
vπ(s)=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)[r+γvπ(s′)]
这个公式被称为
v
π
v_{\pi}
vπ贝尔曼方程Bellman Equation.
强化学习的目的:寻找最优策略和最优价值函数
前面虽然公式推导比较多,但是基本脉络是很清晰的,我们不过是为了引入策略函数和价值函数两个函数。为了能够让这两个函数迭代求解,我们推导出了贝尔曼方程。
万事俱备,我们后面的主要工作就是求最优策略和最优价值函数。
我们将其形式化,最优值函数定义为:
v
∗
(
s
)
=
max
π
v
π
(
s
)
v_*(s)=\max_{\pi}v_{\pi}(s)
v∗(s)=maxπvπ(s)
最优策略我们用最优动作价值函数来表示,记作
q
∗
(
s
,
a
)
=
max
π
q
π
(
s
,
a
)
q_*(s,a)=\max_{\pi}q_{\pi}(s,a)
q∗(s,a)=maxπqπ(s,a)
二者之间的关系可以表示为:
公式1-10:
q
∗
(
s
,
a
)
=
E
[
R
t
+
1
+
γ
v
∗
(
S
t
+
1
)
∣
S
t
=
s
,
A
t
=
a
]
q_*(s,a)=\mathbb{E}[R_{t+1}+\gamma v_*(S_{t+1}) | S_t=s, A_t=a]
q∗(s,a)=E[Rt+1+γv∗(St+1)∣St=s,At=a]
我们将其代入贝尔曼方程:
v
∗
(
s
)
=
max
a
∈
A
(
s
)
q
π
∗
(
s
,
a
)
v_*(s)=\max_{a\in A(s)}q_{\pi_*}(s,a)
v∗(s)=maxa∈A(s)qπ∗(s,a)
v
∗
(
s
)
=
max
a
E
π
∗
[
G
t
∣
S
t
=
s
,
A
t
=
a
]
v_*(s)=\max_{a}\mathbb{E}_{\pi_*}[G_t|S_t=s,A_t=a]
v∗(s)=maxaEπ∗[Gt∣St=s,At=a]
我们代入公式1-5,得到
v
∗
(
s
)
=
max
a
E
π
∗
[
R
t
+
1
+
γ
G
t
+
1
∣
S
t
=
s
,
A
t
=
a
]
v_*(s)=\max_{a}\mathbb{E}_{\pi_*}[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a]
v∗(s)=maxaEπ∗[Rt+1+γGt+1∣St=s,At=a]
通过公式1-10可以得到:
公式1-11:
v
∗
(
s
)
=
max
a
E
[
R
t
+
1
+
γ
v
∗
(
S
t
+
1
)
∣
S
t
=
s
,
A
t
=
a
]
v_*(s)=\max_{a}\mathbb{E}[R_{t+1}+\gamma v_*(S_{t+1}) | S_t=s, A_t=a]
v∗(s)=maxaE[Rt+1+γv∗(St+1)∣St=s,At=a]
再根据公式1-8:
q
π
(
s
,
a
)
=
∑
s
′
,
r
p
(
s
′
,
r
∣
s
,
a
)
[
r
+
γ
v
π
(
s
′
)
]
q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r + \gamma v_{\pi}(s')]
qπ(s,a)=∑s′,rp(s′,r∣s,a)[r+γvπ(s′)]
可以得到:
公式1-12:
v
∗
(
s
)
=
max
a
∑
s
′
,
r
p
(
s
′
,
r
∣
s
,
a
)
[
r
+
γ
v
∗
(
s
′
)
]
v_*(s)=\max_{a}\sum_{s',r}p(s',r|s,a)[r + \gamma v_*(s')]
v∗(s)=maxa∑s′,rp(s′,r∣s,a)[r+γv∗(s′)]
公式1-11和公式1-12就是价值函数的贝尔曼最优方程的两种形式。
针对有限马尔可夫决策过程来说,公式1-12有独立于策略的唯一解。如果环境变化函数p是已知的,我们就可以用求解线性方程组的方法来求解最优价值函数。比如我们可以通过scipy库的optimize.linprog函数来进行这种计算。
res = scipy.optimize.linprog(c,a_ub, b_ub, bounds=bounds, method='interior-point')
有了最优价值函数之后,我们就可以通过贪婪法去搜索一个最优的策略。也就是说选择每一步价值函数最大的策略,就可以获取到这种策略。
同样,根据公式1-8:
q
π
(
s
,
a
)
=
∑
s
′
,
r
p
(
s
′
,
r
∣
s
,
a
)
[
r
+
γ
v
π
(
s
′
)
]
q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r + \gamma v_{\pi}(s')]
qπ(s,a)=∑s′,rp(s′,r∣s,a)[r+γvπ(s′)],我们还可以得到最优策略函数的贝尔曼最优方程:
公式1-13:
q
∗
(
s
,
a
)
=
∑
s
′
,
r
p
(
s
′
,
r
∣
s
,
a
)
[
r
+
γ
max
a
q
∗
(
s
′
,
a
′
)
]
q_{*}(s,a)=\sum_{s',r}p(s',r|s,a)[r + \gamma \max_{a}q_*(s',a')]
q∗(s,a)=∑s′,rp(s′,r∣s,a)[r+γmaxaq∗(s′,a′)]
同样可以通过求解线性方程组的方式来获取最优策略函数的解。求得之后,对于每个状态,我们简化到只要使用最大的动作a就可以获取到一个最优策略。
小结
本章我们主要讲解了强化学习的基本概念以及贝尔曼最优方程。相信经过上面的讲解,大家对于贝尔曼最优方程的来龙去脉和为什么依赖于马尔可夫决策过程的特性都有了一定的了解。
如果大家觉得对数学要求比较高也不用担心,因为后面我们将讲解的大部分都是基于无模型的方法,我们只要记得贝尔曼最优方程是个迭代的方程就好,后面我们用蒙特卡洛法、时序差分法、策略梯度法、执行者-评论者方法等都不需要太多的数学知识。像策略梯度定理证明之类的推导也只了解结论即可。
欢迎来到强化学习的世界!