目录
重点
考查三个Policy的一致性:
- 当前正在学习的Current Policy;
- 生成训练数据时基于的Behavior Policy;
- 目标值即target value基于的Target Policy,Target Policy这个不一定有,取决于近似方法,比如只采用即时奖赏r近似的目标就没有参数。
判断Policy是否一致,就是看网络的参数是否一样。
on-policy
所有的Policy参数均一致,比如A2C、A3C、TRPO、IMPALA、PPO、PG等。
off-policy
只要生成训练数据sample data的policy参数或目标网络的policy与当前正在学习的policy的网络参数不一致,
就是off-policy, 比如DQN、DDQN、Dueling DQN、