这个开源项目用Pytorch实现了17种强化学习算法

这是一个开源项目,通过PyTorch实现了17种深度强化学习算法,包括DQN、DDPG、A3C等,适用于CartPole、MountainCar等环境,帮助开发者在实践中理解深度RL。项目还包括Hindsight Experience Replay (HER) 和Hierarchical Reinforcement Learning的实验,展示算法性能并提供实验结果。
摘要由CSDN通过智能技术生成

👇👇关注后回复 “进群” ,拉你进程序员交流群👇👇

开源最前线(ID:OpenSourceTop) 猿妹编译

链接:https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch

强化学习在过去的十年里取得了巨大的发展,如今已然是各大领域热捧的技术之一,今天,猿妹和大家推荐一个有关强化学习的开源项目。

这个开源项目是通过PyTorch实现了17种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度RL算法。

完整的17个算法实现如下:

  • Deep Q Learning (DQN) (Mnih et al. 2013)

  • DQN with Fixed Q Targets (Mnih et al. 2013)

  • Double DQN (DDQN) (Hado van Hasselt et al. 2015)

  • DDQN with Prioritised Experience Replay (Schaul et al. 2016)

  • Dueling DDQN (Wang et al. 2016)

  • REINFORCE (Williams et al. 1992)

  • Deep Deterministic Policy Gradients (DDPG) (Lillicrap et al. 2016 )

  • Twin Delayed Deep Deterministic Policy Gradients (TD3) (Fujimoto et al. 2018)

  • Soft Actor-Critic (SAC & SAC-Discrete) (Haarnoja et al. 2018)

  • Asynchronous Advantage Actor Critic (A3C) (Mnih et al. 2016)

  • Syncrhonous Advantage Actor Critic (A2C)

  • Proximal Policy Optimisation (PPO) (Schulman et al. 2017)

  • DQN with Hindsight Experience Replay (DQN-HER) (Andrychowicz et al. 2018)

  • DDPG with Hindsight Experience Replay (DDPG-HER) (Andrychowicz et al. 2018 )

  • Hierarchical-DQN (h-DQN) (Kulkarni et al. 2016)

  • Stochastic NNs for Hierarchical Reinforcement Learning (SNN-HRL) (Florensa et al. 2017)

  • Diversity Is All You Need (DIAYN) (Eyensbach et al. 2018)

所有实现都能够快速解决Cart Pole(离散动作),Mountain Car Continuous(连续动作),Bit Flipping(具有动态目标的离散动作)或Fetch Reach(具有动态目标的连续动作)。创建者计划尽快添加更多的分层RL算法。

1. Cart Pole 和 Mountain Car

下面展示了各种RL算法成功学习离散动作游戏Cart Pole 或连续动作游戏Mountain Car。使用3个随机种子运行算法的平均结果显示如下:

be5f7435498a56aee801d34100332e32.png

阴影区域表示正负1标准差。使用超参数可以在 results/Cart_Pole.py 和 results/Mountain_Car.py 文件中找到。

2. Hindsight Experience Replay (HER) Experiements

下图展示了DQN和DDPG在 Bit Flipping(14位)和 Fetch Reach 环境中的性能,这些环境描述在论文《后见之明体验重放2018》和《多目标强化学习2018》中。这些结果复现了论文中发现的结果,并展示了Fetch HER如何让一个agent解决它无法解决的问题。注意,在每对agents中都使用了相同的超参数,因此它们之间的唯一区别是是否使用hindsight。

feb52247a903568b1edda46240381ba1.png

3. Hierarchical Reinforcement Learning Experiments

53dafedba135401a38dfe8bfc4b6ff1f.png

上图左边的结果显示了在 Long Corridor 环境中 DQN 和 Kulkarni 等人在 2016 年提出的 hierarchy -DQN 算法的性能。

上图右边的结果显示了 Florensa 等人 2017 年提出的 DDQN 算法和用于分层强化学习的随机神经网络 (SNN-HRL) 的性能。

fa1ebb73baf9c98a42502800b5a81bbb.png

目前,该项目已经在Github上标星 4.1k981个Fork(Github地址:https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch)

-End-

最近有一些小伙伴,让我帮忙找一些 面试题 资料,于是我翻遍了收藏的 5T 资料后,汇总整理出来,可以说是程序员面试必备!所有资料都整理到网盘了,欢迎下载!

12110a3ffa02985cb04015283f0774c9.png

点击👆卡片,关注后回复【面试题】即可获取

在看点这里c13b646d773a6e3d42e585cbb0cc8dd3.gif好文分享给更多人↓↓

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值