DRL（五）——DDPG

最新推荐文章于 2023-07-14 13:47:50 发布

Mia_compiling

最新推荐文章于 2023-07-14 13:47:50 发布

阅读量342

点赞数

分类专栏： DRL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41796745/article/details/105981969

版权

DRL 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

在我的笔记DRL（四）——value function中，大部分讲了Q Learning的算法、存在的问题和解决的措施。这一个笔记的内容是紧接上一篇的。
为什么要提出DDPG呢？
因为不管是DQN也好，DDQN也好，都是离散动作的，就是说，action是有限的。然而很多时候action都是连续的，这时候就需要新的方法了。

在连续动作空间中怎样选择最优action呢？

我们知道，在离散动作的Q Learning中，我们是通过 $arg_a~max~Q(S',a')$ 来选择最大的Q值对应的动作a。但是如果是连续动作，我们就不太可能计算出所有动作的Q值了。
解决办法肯定是有的！

sample several actions from continuous action space。这种方法比较简单但是就是不够准确。
CrossEntropy Method
use function class that is easy to optimize, like the Normalized Advantage Function. 这种方法虽然很容易得到max，但是有其他弊端。
learn an approximate maximizer——DDPG

我们训练一个 μ(θ) ，通过这个能够得到Q最大的动作。
在这里插入图片描述
然后完整的DDPG就是这样：

因为Q Learning是deterministic policy，这一点与AC是不同的，AC是stochastic policy。μ就仅仅是找出arg max。

实际操作一个DDPG

看了很多代码，各种复杂的有，跑不了的也有，……最后还是找到一个可以方便使用的。
代码的话，使用了两个AC，为了soft replacement，非常简洁。算法也和课程里的不一样：
在这里插入图片描述
怎么说，这个清楚明了吧。
具体解析参考这个大佬写的

这是在下手动整理的算法
在这里插入图片描述

一些Q Learning的小技巧

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DRL（五）——DDPG

在我的笔记DRL（四）——value function中，大部分讲了Q Learning的算法、存在的问题和解决的措施。这一个笔记的内容是紧接上一篇的。为什么要提出DDPG呢？因为不管是DQN也好，DDQN也好，都是离散动作的，就是说，action是有限的。然而很多时候action都是连续的，这时候就需要新的方法了。在连续动作空间中怎样选择最优action呢？我们知道，在离散动作的Q Le...
复制链接

扫一扫

专栏目录

Mia_compiling CSDN认证博客专家 CSDN认证企业博客

码龄6年

43: 原创

38万+: 周排名

109万+: 总排名

2万+: 访问

: 等级

602: 积分

241: 粉丝

17: 获赞

16: 评论

45: 收藏

私信

关注

热门文章

分类专栏

最新评论

学着使用HFO
hccz95: 您好，我在 https://archive.robocup.info/Soccer/Simulation/2D/binaries/RoboCup/2013/ 下载了往年的作品，但是不知道怎么运行，bin/Teams.py文件中好像只写了helios和base，不知道是不是要在这个文件里加一些语句？
安装Ubuntu系统
weixin_44915639: 怀疑小姐姐是在中科院读书的~
学着使用HFO
weixin_44915639: 追更ing
安装HFO（Half Field Offense）环境
weixin_44915639: 如果没有这篇真的不知道从何下手
安装HFO（Half Field Offense）环境
weixin_44915639: 这篇blog真的太就救命了！！！感谢po主

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。