这个开源项目用Pytorch实现了17种强化学习算法

最新推荐文章于 2024-05-26 09:48:21 发布

程序员大咖

最新推荐文章于 2024-05-26 09:48:21 发布

阅读量1.6k

点赞数 1

文章标签：算法人工智能 java 机器学习 python

原文链接：https://mp.weixin.qq.com/s?__biz=MzUyODg4Nzk2MQ==&mid=2247541823&idx=7&sn=81118c0e1361f9565437561c34a06c4a&chksm=fa6b1dc9cd1c94df77bebb1aa934e1832015ea4a6f377fa508289069db5c91a0a5bf8ce25119&scene=126&&sessionid=0

版权

这是一个开源项目，通过PyTorch实现了17种深度强化学习算法，包括DQN、DDPG、A3C等，适用于CartPole、MountainCar等环境，帮助开发者在实践中理解深度RL。项目还包括Hindsight Experience Replay (HER) 和Hierarchical Reinforcement Learning的实验，展示算法性能并提供实验结果。

摘要由CSDN通过智能技术生成

👇👇关注后回复 “进群” ，拉你进程序员交流群👇👇

开源最前线（ID：OpenSourceTop）猿妹编译

链接：https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch

强化学习在过去的十年里取得了巨大的发展，如今已然是各大领域热捧的技术之一，今天，猿妹和大家推荐一个有关强化学习的开源项目。

这个开源项目是通过PyTorch实现了17种深度强化学习算法的教程和代码库，帮助大家在实践中理解深度RL算法。

完整的17个算法实现如下：

Deep Q Learning (DQN) (Mnih et al. 2013)
DQN with Fixed Q Targets (Mnih et al. 2013)
Double DQN (DDQN) (Hado van Hasselt et al. 2015)
DDQN with Prioritised Experience Replay (Schaul et al. 2016)
Dueling DDQN (Wang et al. 2016)
REINFORCE (Williams et al. 1992)
Deep Deterministic Policy Gradients (DDPG) (Lillicrap et al. 2016 )
Twin Delayed Deep Deterministic Policy Gradients (TD3) (Fujimoto et al. 2018)
Soft Actor-Critic (SAC & SAC-Discrete) (Haarnoja et al. 2018)
Asynchronous Advantage Actor Critic (A3C) (Mnih et al. 2016)
Syncrhonous Advantage Actor Critic (A2C)
Proximal Policy Optimisation (PPO) (Schulman et al. 2017)
DQN with Hindsight Experience Replay (DQN-HER) (Andrychowicz et al. 2018)
DDPG with Hindsight Experience Replay (DDPG-HER) (Andrychowicz et al. 2018 )
Hierarchical-DQN (h-DQN) (Kulkarni et al. 2016)
Stochastic NNs for Hierarchical Reinforcement Learning (SNN-HRL) (Florensa et al. 2017)
Diversity Is All You Need (DIAYN) (Eyensbach et al. 2018)

所有实现都能够快速解决Cart Pole（离散动作），Mountain Car Continuous（连续动作），Bit Flipping（具有动态目标的离散动作）或Fetch Reach（具有动态目标的连续动作）。创建者计划尽快添加更多的分层RL算法。

1. Cart Pole 和 Mountain Car

下面展示了各种RL算法成功学习离散动作游戏Cart Pole 或连续动作游戏Mountain Car。使用3个随机种子运行算法的平均结果显示如下：

阴影区域表示正负1标准差。使用超参数可以在 results/Cart_Pole.py 和 results/Mountain_Car.py 文件中找到。

2. Hindsight Experience Replay (HER) Experiements

下图展示了DQN和DDPG在 Bit Flipping(14位)和 Fetch Reach 环境中的性能，这些环境描述在论文《后见之明体验重放2018》和《多目标强化学习2018》中。这些结果复现了论文中发现的结果，并展示了Fetch HER如何让一个agent解决它无法解决的问题。注意，在每对agents中都使用了相同的超参数，因此它们之间的唯一区别是是否使用hindsight。

3. Hierarchical Reinforcement Learning Experiments

上图左边的结果显示了在 Long Corridor 环境中 DQN 和 Kulkarni 等人在 2016 年提出的 hierarchy -DQN 算法的性能。

上图右边的结果显示了 Florensa 等人 2017 年提出的 DDQN 算法和用于分层强化学习的随机神经网络 (SNN-HRL) 的性能。

目前，该项目已经在Github上标星 4.1k，981个Fork（Github地址：https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch）

-End-

最近有一些小伙伴，让我帮忙找一些面试题资料，于是我翻遍了收藏的 5T 资料后，汇总整理出来，可以说是程序员面试必备！所有资料都整理到网盘了，欢迎下载！

点击👆卡片，关注后回复【面试题】即可获取

在看点这里好文分享给更多人↓↓

程序员大咖

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
这个开源项目用Pytorch实现了17种强化学习算法

????????关注后回复“进群”，拉你进程序员交流群????????开源最前线（ID：OpenSourceTop）猿妹编译链接：https://github.com/p-christ/Deep-Reinf...
复制链接

扫一扫