(DDPG)深度确定策略梯度调参体会

最新推荐文章于 2024-08-06 17:34:44 发布

万德1010

最新推荐文章于 2024-08-06 17:34:44 发布

阅读量1.8w

点赞数 20

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32231743/article/details/73770055

版权

本文记录了作者在调参DDPG算法时的经验，探讨了学习率、正则化、激活函数、网络结构、初始化参数、经验回放和动作噪声等方面的选择和调整。通过实验，作者发现适当的参数调整可以提高模型的稳定性和学习速度。

摘要由CSDN通过智能技术生成

花了一个星期，昨晚终于调出了还算能工作的模型，真的很难。赶紧记下来备忘。

直接使用论文中的参数，我没有把模型调出来，参数基本上都修改了。下图是论文对于参数的配置说明。
这里写图片描述

按论文说的来。
1， “a base learning rate of $10^{-3 }$ and $10^{-4}$ for the actor and critic respectively”。论文使用

最低0.47元/天解锁文章

关注

20
点赞
踩
87

收藏

觉得还不错? 一键收藏
14
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

万德1010 CSDN认证博客专家 CSDN认证企业博客

码龄9年

39: 原创

17万+: 周排名

28万+: 总排名

12万+: 访问

: 等级

1346: 积分

95: 粉丝

130: 获赞

36: 评论

404: 收藏

私信

关注

热门文章

分类专栏

最新评论

DQN调整超参数体会
这个人有丶懒: 可以看到数量级在10−2上（1与1.01的差别），这里是不是有问题呀，应该是1与0.01的差别
DQN调整超参数体会
火鸡跳跳鸟“�”: 博主，的确要描述内容的；来源
(DDPG)深度确定策略梯度调参体会
clxclx111: 你好，我现在也遇到了这个问题，到后面无论什么状态输出的action都是一样的，请问下你是怎么解决的
(DDPG)深度确定策略梯度调参体会
从山从石: 您好，请问您后来解决这个问题了吗？我在使用时网络总是能在reward减小的方向快速收敛
(DDPG)深度确定策略梯度调参体会
panbaoran913: 你解决这个问题了吗?疯狂只输出同一个动作的问题

最新文章

目录

评论 14

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。