极简深度强化学习实现-DDPG-TD3-SAC

5 篇文章 4 订阅

极简深度强化学习实现-DDPG-TD3-SAC

github地址

https://github.com/kaixindelele/DRL-tensorflow
有帮助的话,希望能给我github点个star,thank u~
这个项目已经放弃维护了!

最新的代码库:
DRLib:一个简洁的强化学习库,集成了HER和PER

based on

My DRL library with tensorflow1.14 core codes based on https://github.com/openai/spinningup

My job is wrap the algorithms functions into classes in order to easy to call. Maintain the performance in gym environments of the original codes.

实现目的和学习建议:

网上很多实现这些深度强化学习的算法框架,但是很多都是非常复杂的实现,偶尔有人复现了单一算法又难以确定正确性和拓展性,因此我在openai的spinning-up的基础上,抽出最核心的算法,并且封装成类,便于调用。

在看openai的spinning-up的时候,他们建议和我总结的规律,学习一个新的算法:

  1. 看懂算法简介
  2. 看懂伪代码;
  3. 带着问题看原版论文;
  4. 看完之后实现最精简的算法,并且跑最简单的gym环境,测试算法的有效性;
  5. 增加新的功能,拓展到复杂任务, 每次增加一个部件,做一次测试!
  6. 最终实现你的任务(工作量实在是太大了~)

至于这些算法怎么学,还是建议自己去看他们的文档,我目前总结出来的,感觉还差了一点火候。
等以后有时间了,或者我理解更透彻了,也许会对这些算法做一个中文的讲解。

下一步打算

抽时间将on-policy部分的TRPO和PPO看懂,实现。
大概需要两周时间吧

  • 2
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hehedadaq

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值