DDPG笔记（归纳总结）

最新推荐文章于 2024-05-07 21:52:57 发布

snowleafzf

最新推荐文章于 2024-05-07 21:52:57 发布

阅读量1.4k

点赞数 1

文章标签：深度学习机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/snowleafzf/article/details/85620822

版权

（之前的笔记，发一下ovo）

Deep Deterministic Policy Gradient：DDPG就是用了确定性策略在DPG基础上结合DQN的特点建议改进出来的算法

大体上理解：

深度强化学习-DDPG算法原理和实现 - 简书

【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解_shura的技术空间-CSDN博客_ddpg

DQN可以应对高维输入，而对高维的动作输出则束手无策。随后，同样是DeepMind提出的DDPG，则可以解决有着高维或者说连续动作空间的情境。它包含一个策略网络用来生成动作，一个价值网络用来评判动作的好坏，并吸取DQN的成功经验，同样使用了样本池和固定目标网络，是一种结合了深度网络的Actor-Critic方法。

原文如下：

1.DDPG本质上是一个AC方法（Actor-Critic）：

这里写图片描述

Actor（μ）和Critic（Q）都有target-net和eval-net。我们需要强调一点的事，我们只需要训练动作估计网络和状态估计网络的参数，而动作现实网络和状态现实网络的参数是由前面两个网络每隔一定的时间复制过去的。

2.PG（Policy Gradient）： by 深度强化学习-Policy Gradient基本实现 - 简书

算法输出的是动作的概率，而不是Q值。
损失函数的形式为：loss= -log(prob)*vt
需要一次完整的episode才可以进行参数的更新

（log(prob)表示在状态 s 对所选动作 a 的吃惊度, 如果概率越小, 反向的log(prob) 反而越大. 而vt代表的是当前状态s下采取动作a所能得到的奖励，这是当前的奖励和未来奖励的贴现值的求和。也就是说，我们的策略梯度算法必须要完成一个完整的eposide才可以进行参数更新，而不是像值方法那样，每一个(s,a,r,s')都可以进行参数更新。如果在prob很小的情况下, 得到了一个大的Reward, 也就是大的vt, 那么-log(prob)*vt就更大, 表示更吃惊, (我选了一个不常选的动作, 却发现原来它能得到了一个好的 reward, 那我就得对我这次的参数进行一个大幅修改)。

3.DQN：by- 实战深度强化学习DQN-理论和实践 - 简书

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
DDPG笔记（归纳总结）

Deep Deterministic Policy Gradient：DDPG就是用了确定性策略在DPG基础上结合DQN的特点建议改进出来的算法大体上理解：https://www.jianshu.com/p/6fe18d0d8822https://blog.csdn.net/qq_30615903/article/details/80776715DQN可以应对高维输入，而对高维的动...
复制链接

扫一扫

snowleafzf CSDN认证博客专家 CSDN认证企业博客

码龄10年

38: 原创

10万+: 周排名

54万+: 总排名

4万+: 访问

: 等级

762: 积分

19: 粉丝

16: 获赞

30: 评论

113: 收藏

私信

关注

热门文章

分类专栏

python 4篇
yarn 3篇
hadoop 4篇
图像处理 6篇
统计模式识别
DRL 3篇
基础 13篇
spark
scala
java 8篇

最新评论

六、Image Compression（图像压缩）
nanfangyuanyuan: https://arxiv.org/pdf/2002.03370.pdf
yarn sls源码的理解与schedule.xml配置实验
Happy_Saint 回复 snowleafzf: 恩恩，感谢你这么认真的回我信息！我QQ 947708436 名字：安琪
yarn sls源码的理解与schedule.xml配置实验
snowleafzf 回复 Happy_Saint: 我记得csv文件中的时间戳是别的表示，但总体来说没有问题的。至于你说的时间还没开始就开始运行这个，我从来没有遇到过。感觉不可能啊，yarn sls只是模拟了节点和作业，调度器还是真实的，应该不存在container 提前运行啊。可以加我QQ或者微信，如果有事
yarn sls源码的理解与schedule.xml配置实验
Happy_Saint: 然后就是无法私信你（哈哈哈）
yarn sls源码的理解与schedule.xml配置实验
Happy_Saint 回复 snowleafzf: 恩恩我看你19年刷了很多类似招聘的题吗？找工作了还是研究生？？我这段时间开始找工作了（0 . 0）

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。