策略梯度与A2C算法
文章目录从Q learning到策略梯度AC算法A2C算法
从Q learning到策略梯度
在解决MDP问题的算法中,Value Base类算法的思路将关注点放在价值函数上,传统的Q Learning等算法是一个很好的例子。Q Learning通过与环境的交互,不断学习逼近(状态, 行为)价值函数Q(st,at)Q(s_t, a_t)Q(st,at),而策略本身即选取使得在特定状态下价值函数...
原创
2019-08-25 10:45:46 ·
11082 阅读 ·
1 评论