RL-Ch5-Q-Learning
本文提到的actor
等效于前几章笔记中的agent
+policy
。
Critic V π ( s ) V^\pi(s) Vπ(s)
- 不直接采取行动
- 对actor进行评判(即对agent采取的policy进行评判)
- V π ( s ) V^\pi(s) Vπ(s):在状态s时使用策略 π \pi π后的累计收益
如何估计 V π ( s ) V^\pi(s) Vπ(s)?
Mento-Carlo(回合更新)
示意图如下:
实际上是一个回归问题。
Tenmporal-Difference(单步更新)
取一个episode的中间几个值,即 { s t , a t , r t , s t + 1 } \{s_t,a_t,r_t,s_{t+1}\} { st,at,rt,st+1},计算图如下:
MC vs. TD
MC的方差较大,而TD有小方差,但更新往往不够准确。
例子
取一个游戏的八个回合,
s a , r = 0 , s b , r = 0 , E N D s_a,r=0,s_b,r=0,END sa,r=0,sb,r=0,END
s b , r = 1 , E N D × 7 s_b,r=1,END\quad \times \quad7 sb,r=1,END×7
s b , r = 0 , E N D s_b,r=0,END sb,r=0,END
可以计算得到 V π ( s b ) = 3 4 V^\pi(s_b)=\frac{3}{4} Vπ(sb)=43,而MC/TD得到的 V π ( s a ) V^\pi(s_a) Vπ(sa)得到的值是不一样的。
-
MC:考虑到 s a s_a sa在采样时只出现一次,所以 V π ( s a ) =