RL policy gradient 之 A2C, A3C,PPO小总结
A2C, A3C, PPO 都不是纯 policy based 的 RL 方法,准确地说是 Actor-Critic 方法,即,同时用到了 value function 和 policy funtion.
这三种方法之间有什么区别呢?
A2C
这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种,A2C 是在 Actor-Critic 方法的基础上多了一个...
原创
2020-04-28 23:55:55 ·
2213 阅读 ·
0 评论