极简深度强化学习实现-DDPG-TD3-SAC

最新推荐文章于 2024-08-18 09:00:00 发布

hehedadaq

最新推荐文章于 2024-08-18 09:00:00 发布

阅读量6.6k

点赞数 2

分类专栏： DDPG DRL 文章标签：深度强化学习 DDPG SAC TD3 代码实现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hehedadaq/article/details/102659777

版权

DRL 同时被 2 个专栏收录

33 篇文章 18 订阅

订阅专栏

5 篇文章 4 订阅

订阅专栏

极简深度强化学习实现-DDPG-TD3-SAC

文章目录

极简深度强化学习实现-DDPG-TD3-SAC

github地址

https://github.com/kaixindelele/DRL-tensorflow
有帮助的话，希望能给我github点个star，thank u~
这个项目已经放弃维护了！

最新的代码库：
DRLib:一个简洁的强化学习库，集成了HER和PER

based on

My DRL library with tensorflow1.14 core codes based on https://github.com/openai/spinningup

My job is wrap the algorithms functions into classes in order to easy to call. Maintain the performance in gym environments of the original codes.

实现目的和学习建议：

网上很多实现这些深度强化学习的算法框架，但是很多都是非常复杂的实现，偶尔有人复现了单一算法又难以确定正确性和拓展性，因此我在openai的spinning-up的基础上，抽出最核心的算法，并且封装成类，便于调用。

在看openai的spinning-up的时候，他们建议和我总结的规律，学习一个新的算法：

看懂算法简介
看懂伪代码；
带着问题看原版论文；
看完之后实现最精简的算法，并且跑最简单的gym环境，测试算法的有效性；
增加新的功能，拓展到复杂任务，每次增加一个部件，做一次测试！
最终实现你的任务（工作量实在是太大了~）

至于这些算法怎么学，还是建议自己去看他们的文档，我目前总结出来的，感觉还差了一点火候。
等以后有时间了，或者我理解更透彻了，也许会对这些算法做一个中文的讲解。

下一步打算

抽时间将on-policy部分的TRPO和PPO看懂，实现。
大概需要两周时间吧

关注

2
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hehedadaq 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。