RL
文章平均质量分 89
马小疼
T大博士在读,研究方向是强化学习,喜欢python和pytorch。
展开
-
从REINFORCE到PPO,看Policy Gradient的前世今生
从REINFORCE到PPO,看Policy Gradient的前世今生Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line、on-policy的方法,后者是on-line、off-policy的方法。前者是策略迭代,关心的是策略网络的参数;后者是值迭代,关心的是值网络的输出。随着RL的不断发展,这两类方法在不断交错领跑的过程...原创 2018-09-05 11:49:24 · 9396 阅读 · 1 评论 -
强化学习入门资料整理
强化学习入门资料整理整理了我在入门强化学习的过程中收集的一些资料。比较杂,图书、课程、博客、代码等等都有,但每一项都是我认真看过的、在学习和研究的过程中帮助到我的,因此也在这里推荐给大家。图书Reinforcement Learning: An IntroductionSutton的良心巨制,最近也出了第二版。致力于长期从事RL研究的同志们一定要去拜读一下。冯超|强化学习精要知乎大...原创 2018-12-07 17:01:15 · 1102 阅读 · 1 评论 -
Ray关键概念疏理
Ray是UCB开发的分布式训练框架,可以用来快速构建RL算法原型。原创 2019-08-04 10:41:22 · 1255 阅读 · 2 评论