tree源码_【强化学习6】强化学习源码与博客

本人基于tensorflow2实现的代码

【1】policy gradient

https://github.com/lgc-robotics/reinforcement_learning/tree/master/policy%20gradient​github.com

下图是CartPole-v1的训练结果:

eb8c762902a7be3e6d6cf05879528d66.png

【2】Actor-critic

https://github.com/lgc-robotics/reinforcement_learning/tree/master/actor%20critic​github.com
  • 如果回合长度不长,如CartPole-v0的最大回合长度仅为200,那么可以用bootstrapping方法估计value函数(见“【CS285第6讲】Actor-critic”公式9)。详情可见online-actor-critic.py。
  • 如果回合长度太长,如CartPole-v1的最大回合长度为500,建议使用一条轨迹来估计value函数(见“【CS285第6讲】Actor-critic”公式7),不建议使用bootstrapping,因为bootstrapping的偏差会很大。详情可见batch-actor-critic.py。下图是CartPole-v1的训练结果:

fbc665f55e7707277337c85ff417c5c7.png

【3】A3C

lgc-robotics/reinforcement_learning​github.com
245be89690b320b0ed427f5db89751e7.png

这是A3C在CartPole-v1上的训练结果:

ded1b5df4fcc8f481136fc1548623358.png

下图是A3C在Pendulum上的训练结果:

83dc84c8d572bcd74d48e157b48db98f.png

【4】PPO

lgc-robotics/reinforcement_learning​github.com
245be89690b320b0ed427f5db89751e7.png

下图是PPO在Pendulum上的训练结果。别看PPO收录速度快于A3C,我花在PPO代码调试上的时间远远多于A3C,因为PPO对参数初值太敏感了。

83baaec7fa5b584508795daa22543555.png

【5】DDPG

lgc-robotics/reinforcement_learning​github.com

下图是DDPG在Pendulum上的训练结果:

7d3019c6c2db6c6bbe7fa2b8879e06aa.png

下图是DDPG在BipedalWalker-v3上的训练结果(效果不好):

ec644dd6a8be6bd2e13989f729a56ec9.png

【6】TD3

https://github.com/lgc-robotics/reinforcement_learning/tree/master/TD3​github.com

下图是TD3在Pendulum上的训练结果:

ec0690815eb0f667b2260b90fa3e5398.png

下图是TD3在BipedalWalker-v3上的训练结果:

80affff7368d1dd2ec8b9dd03ce4c267.png

TD3论文作者提供的源码:sfujim/TD3

【7】SAC

【8】DPPO

常见强化学习框架

【1】tensorlayer实现的代码,基于tensorflow 2.0

https://github.com/tensorlayer/tensorlayer/tree/master/examples/reinforcement_learning​github.com

【2】Kei Ohta开源的,基于tensorflow 2.0

https://github.com/keiohta/tf2rl​github.com

【3】openAI baselines,基于tensorflow 1.14

https://github.com/openai/baselines​github.com

【4】openAI spinup, 基于tensorflow

openai/spinningup​github.com
a96683f15593915a7c1276a861f8229b.png

【5】Intel开源的,

NervanaSystems/coach​github.com
8b278248d7d017502f0b46c55df6199b.png

【6】基于pytorch,Berkeley,很不错

https://github.com/vitchyr/rlkit​github.comvitchyr/rlkit https://github.com/vitchyr/rlkit​github.com

博客

【1】Berkeley

The Berkeley Artificial Intelligence Research Blog​bair.berkeley.edu
e1ff02eecb1cb34deedbd32f080a0bac.png

【2】OpenAI

OpenAI Blog​openai.com

强化学习仿真环境pybullet

Documentation: https://github.com/bulletphysics/bullet3/tree/master/docs

API: Bullet Documentation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值