Actor-Critic
- policy gradient 中accumulate reward较不稳定 分布较大
- 一个方法是取accmulate reward的期望值
Actor-Critic
-
accmulate reward的期望值就是Qfunction出来的值 Q的定义:在state 采取 action知道游戏结束得到accmulate reward的期望
-
将policy gradient 的两项用Q V替换就是AC
Advantage AC
-
有两个network Q V 但是只需要估计一个network
-
用V和state采取action得到的r表示Q
-
A2C流程
-
init一个action π
-
estimate出V(TD/MC)
-
用V update π
-
优化成π1
-
更新V
-
…
-
- Tips
- actor和V 可以共享网络的前几个层(可能前几个维度都需要将image放到高维产生特征)
Asynchronous Advantage AC
-
同时开很多“分身”(worker)
-
最后每个“分身”汇总参数到global network
-
每一个worker copy global network的参数 然后计算gradient
-
update global network