自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Ray关键概念疏理

Ray是UCB开发的分布式训练框架,可以用来快速构建RL算法原型。

2019-08-04 10:41:22 1254 2

原创 使用服务器开启机器学习之旅

使用服务器开启机器学习之旅本教程旨在帮助不了解linux服务器的初学者快速上手,各位大神请绕路。机器学习任务往往是非常消耗计算资源的,稍微大一点的任务PC的算力都很难胜任。这个时候就需要使用服务器了,但服务器不像PC有友好的界面,很多人都望而却步。实际上稍微花一些时间就可以掌握非常使用的生产力工具,释放强大的服务器算力!今天就来给大家介绍几个我自己在实际使用中最最常用的工具,基本上形成了...

2019-01-29 12:15:31 3487

原创 强化学习入门资料整理

强化学习入门资料整理整理了我在入门强化学习的过程中收集的一些资料。比较杂,图书、课程、博客、代码等等都有,但每一项都是我认真看过的、在学习和研究的过程中帮助到我的,因此也在这里推荐给大家。图书Reinforcement Learning: An IntroductionSutton的良心巨制,最近也出了第二版。致力于长期从事RL研究的同志们一定要去拜读一下。冯超|强化学习精要知乎大...

2018-12-07 17:01:15 1099 1

原创 从REINFORCE到PPO,看Policy Gradient的前世今生

从REINFORCE到PPO,看Policy Gradient的前世今生Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line、on-policy的方法,后者是on-line、off-policy的方法。前者是策略迭代,关心的是策略网络的参数;后者是值迭代,关心的是值网络的输出。随着RL的不断发展,这两类方法在不断交错领跑的过程...

2018-09-05 11:49:24 9393 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除