A2C算法
要点
-
A2C算法中引入Advantage的概念,使用Q函数期望值V作为baseline,并以两者差值作为优势。
-
为了减少未知变量的数量,使用 r t + 1 + γ V t ( s + 1 ) r_{t+1}+\gamma V_t(s+1) rt+1+γVt(s+1)来近似Q函数
-
从Actor-Critic角度来看,critic通过观察actor根据 π \pi π做出的动作,计算出优势函数 A t A_t At作为一种"评价",指导了actor参数的修正
-
对于多久更新一次参数的问题,各个算法库的更新方式不尽相同,有以下几种
- 每个时间步一更新
- 每n步一更新
- 每个episode一更新
下面伪代码中用的是第一种: