马小疼-CSDN博客

原创 Ray关键概念疏理

Ray是UCB开发的分布式训练框架，可以用来快速构建RL算法原型。

2019-08-04 10:41:22 1254 2

原创使用服务器开启机器学习之旅

使用服务器开启机器学习之旅本教程旨在帮助不了解linux服务器的初学者快速上手，各位大神请绕路。机器学习任务往往是非常消耗计算资源的，稍微大一点的任务PC的算力都很难胜任。这个时候就需要使用服务器了，但服务器不像PC有友好的界面，很多人都望而却步。实际上稍微花一些时间就可以掌握非常使用的生产力工具，释放强大的服务器算力！今天就来给大家介绍几个我自己在实际使用中最最常用的工具，基本上形成了...

2019-01-29 12:15:31 3487

原创强化学习入门资料整理

强化学习入门资料整理整理了我在入门强化学习的过程中收集的一些资料。比较杂，图书、课程、博客、代码等等都有，但每一项都是我认真看过的、在学习和研究的过程中帮助到我的，因此也在这里推荐给大家。图书Reinforcement Learning: An IntroductionSutton的良心巨制，最近也出了第二版。致力于长期从事RL研究的同志们一定要去拜读一下。冯超|强化学习精要知乎大...

2018-12-07 17:01:15 1099 1

原创从REINFORCE到PPO，看Policy Gradient的前世今生

从REINFORCE到PPO，看Policy Gradient的前世今生Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line、on-policy的方法，后者是on-line、off-policy的方法。前者是策略迭代，关心的是策略网络的参数；后者是值迭代，关心的是值网络的输出。随着RL的不断发展，这两类方法在不断交错领跑的过程...

2018-09-05 11:49:24 9393 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Ray关键概念疏理

原创 使用服务器开启机器学习之旅

原创 强化学习入门资料整理

原创 从REINFORCE到PPO，看Policy Gradient的前世今生

空空如也

空空如也

原创使用服务器开启机器学习之旅

原创强化学习入门资料整理

原创从REINFORCE到PPO，看Policy Gradient的前世今生