2017 Fall CS294 Lecture 6: Actor-critic introduction

很奇怪,没有看到Lecture 5的视频,不过Lecture 5貌似是回顾NN,也没关系,所以就跳过直接从Lecture 6开始了!

我们重现一下actor-critic的诞生过程:

这里写图片描述

上图中,其实PPT中是有动画的,但是上面无法显示出来,实际的推演过程是:
Qπ(st,at)=r(st,at)+Est+1p(st+1|st,at)[Vπ(st+1)] Q π ( s t , a t ) = r ( s t , a t ) + E s t + 1 ∼ p ( s t + 1 | s t , a t ) [ V π ( s t + 1 ) ]
Qπ(st,at)r(st,at)+Vπ(st+1) Q π ( s t , a t ) ≈ r ( s t , a t ) + V π ( s t + 1 )
于是有:
Aπ(st,at)r(st,at)+Vπ(st+1)Vπ(st) A π ( s t , a t ) ≈ r ( s t , a t ) + V π ( s t + 1 ) − V π ( s t )

这里想要说明一下的是,当时听完lecture后,我一直把 Vπ(st) V π ( s t ) 当作一个多么神秘的量,实际上,后来在读的Reinforcement Learning: An introduction(Sutton1998)一书中Value Functions相关内容时才发现,上面提到的 Vπ(st) V π ( s t ) 的含义其实就是一个普通的Value Functions啊,用书中的话来阐述就是:

Informally, the value of a state s s under a policy π , denoted Vπ(s) V π ( s ) , is the expected return when starting in s and following thereafter.

我把书中相关的一页截图如下,里面还涉及到了 Qπ Q π 的解释,读完这一页,感觉真是神清气爽。

记住这两个名字:
Vπ(s) V π ( s ) : the state-value function for policy π π
Qπ(s,a) Q π ( s , a ) : the action-value function for policy π π

这里写图片描述

Policy Evaluation(也就是下图的step2)有两种方法,

这里写图片描述

都在先前的ppt中提到了,如下。其中第二种bootstrapped estimate用的更多。

这里写图片描述
这里写图片描述
这里写图片描述

将actor-critic改造成online形式,这样一来,可以发现第二步就只能使用先前提到的boostrapped estimate了。

这里写图片描述

网络设计方案,有两种

这里写图片描述

同步和异步并行方案

这里写图片描述

Critics as state-dependent baselines,这个我还看得懂,相当于把critic放到PG里面做为baseline

这里写图片描述

Control variates: action-dependent baselines,这个我就看不懂了。

这里写图片描述

往后也是。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值