很奇怪,没有看到Lecture 5的视频,不过Lecture 5貌似是回顾NN,也没关系,所以就跳过直接从Lecture 6开始了!
我们重现一下actor-critic的诞生过程:
上图中,其实PPT中是有动画的,但是上面无法显示出来,实际的推演过程是:
Qπ(st,at)=r(st,at)+Est+1∼p(st+1|st,at)[Vπ(st+1)]
Q
π
(
s
t
,
a
t
)
=
r
(
s
t
,
a
t
)
+
E
s
t
+
1
∼
p
(
s
t
+
1
|
s
t
,
a
t
)
[
V
π
(
s
t
+
1
)
]
Qπ(st,at)≈r(st,at)+Vπ(st+1)
Q
π
(
s
t
,
a
t
)
≈
r
(
s
t
,
a
t
)
+
V
π
(
s
t
+
1
)
于是有:
Aπ(st,at)≈r(st,at)+Vπ(st+1)−Vπ(st)
A
π
(
s
t
,
a
t
)
≈
r
(
s
t
,
a
t
)
+
V
π
(
s
t
+
1
)
−
V
π
(
s
t
)
这里想要说明一下的是,当时听完lecture后,我一直把 Vπ(st) V π ( s t ) 当作一个多么神秘的量,实际上,后来在读的Reinforcement Learning: An introduction(Sutton1998)一书中Value Functions相关内容时才发现,上面提到的 Vπ(st) V π ( s t ) 的含义其实就是一个普通的Value Functions啊,用书中的话来阐述就是:
Informally, the value of a state s s under a policy , denoted Vπ(s) V π ( s ) , is the expected return when starting in s and following thereafter.
我把书中相关的一页截图如下,里面还涉及到了 Qπ Q π 的解释,读完这一页,感觉真是神清气爽。
记住这两个名字:
Vπ(s)
V
π
(
s
)
: the state-value function for policy
π
π
Qπ(s,a)
Q
π
(
s
,
a
)
: the action-value function for policy
π
π
Policy Evaluation(也就是下图的step2)有两种方法,
都在先前的ppt中提到了,如下。其中第二种bootstrapped estimate用的更多。
将actor-critic改造成online形式,这样一来,可以发现第二步就只能使用先前提到的boostrapped estimate了。
网络设计方案,有两种
同步和异步并行方案
Critics as state-dependent baselines,这个我还看得懂,相当于把critic放到PG里面做为baseline
Control variates: action-dependent baselines,这个我就看不懂了。
往后也是。