二、DRL系列-Dueling DDQN+Prioritized DDQN+A3C+distributional DQN（学习笔记）

最新推荐文章于 2023-08-29 21:55:38 发布

snowleafzf

最新推荐文章于 2023-08-29 21:55:38 发布

阅读量1.7k

点赞数

分类专栏： DRL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/snowleafzf/article/details/86750677

版权

DRL 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

rainbow的所有模型：

https://blog.csdn.net/philthinker/article/details/81043882

rainbow论文中文简介：http://www.sohu.com/a/198378840_642762

rainbow Tensorflow代码：https://github.com/google/dopamine/blob/master/dopamine/agents/rainbow/rainbow_agent.py

pytorch代码：https://github.com/Kaixhin/Rainbow

1. Dueling DDQN

https://blog.csdn.net/u013236946/article/details/73161586

https://blog.csdn.net/lipengcn/article/details/81840756 （三个都有）

在许多基于视觉感知的 DRL 任务中，不同的 (s,a) 的值函数是不同的，但是在某些 state 下，值函数的大小与动作无关。为处理这种情况，就需要对 DQN 网络结构作一点改变，即将每个 (s,a) 的 Q 值拆分成了两部分： state 的 value，action 的 advantage。

è¿éåå¾çæè¿°

二、Prioritized experience replay

https://blog.csdn.net/u013236946/article/details/73161586

经验池中TD误差绝对值越大的样本被抽取出来训练的概率越大，加快了最优策略的学习。

用sumtree的结构来选择抽取的样本。

三、A3C

多个agent同时学习，然后将学习的成果集合到global

https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-3-A1-A3C/

https://blog.csdn.net/hansry/article/details/80829127

莫凡 pytorch代码：https://github.com/MorvanZhou/pytorch-A3C/blob/master/continuous_A3C.py

v为value function

Q为动作价值函数

优势函数A为Q-v

https://cloud.tencent.com/developer/article/1380817：里面有rainbow的简单讲解。

四、distributional DQN

http://www.sohu.com/a/159915735_464065

论文：https://arxiv.org/pdf/1707.06887.pdf

设定上下两个阀值，减少风险，用分布视角来建模，使其更稳定。

Q为动作价值函数。

ps：

各种DRL的pytorch代码：https://cloud.tencent.com/developer/article/1366479

DRL的改进（各种版本）：https://www.jianshu.com/p/3bd1eba0a0f7

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
二、DRL系列-Dueling DDQN+Prioritized DDQN+A3C+distributional DQN（学习笔记）

rainbow的所有模型：https://blog.csdn.net/philthinker/article/details/81043882rainbow论文中文简介：http://www.sohu.com/a/198378840_642762rainbow Tensorflow代码：https://github.com/google/dopamine/blob/master/dop...
复制链接

扫一扫

专栏目录

snowleafzf CSDN认证博客专家 CSDN认证企业博客

码龄10年

38: 原创

10万+: 周排名

54万+: 总排名

4万+: 访问

: 等级

762: 积分

19: 粉丝

16: 获赞

30: 评论

113: 收藏

私信

关注

热门文章

分类专栏

python 4篇
yarn 3篇
hadoop 4篇
图像处理 6篇
统计模式识别
DRL 3篇
基础 13篇
spark
scala
java 8篇

最新评论

六、Image Compression（图像压缩）
nanfangyuanyuan: https://arxiv.org/pdf/2002.03370.pdf
yarn sls源码的理解与schedule.xml配置实验
Happy_Saint 回复 snowleafzf: 恩恩，感谢你这么认真的回我信息！我QQ 947708436 名字：安琪
yarn sls源码的理解与schedule.xml配置实验
snowleafzf 回复 Happy_Saint: 我记得csv文件中的时间戳是别的表示，但总体来说没有问题的。至于你说的时间还没开始就开始运行这个，我从来没有遇到过。感觉不可能啊，yarn sls只是模拟了节点和作业，调度器还是真实的，应该不存在container 提前运行啊。可以加我QQ或者微信，如果有事
yarn sls源码的理解与schedule.xml配置实验
Happy_Saint: 然后就是无法私信你（哈哈哈）
yarn sls源码的理解与schedule.xml配置实验
Happy_Saint 回复 snowleafzf: 恩恩我看你19年刷了很多类似招聘的题吗？找工作了还是研究生？？我这段时间开始找工作了（0 . 0）

大家在看

蓝易云 - 美国云端服务器最低成本方案揭示！ 662

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。