强化学习调参技巧一： DDPG算法训练动作选择边界值_分析解决

汀、人工智能

已于 2023-06-02 10:44:44 修改

阅读量1.1w

点赞数 11

分类专栏：强化学习（原理+项目实战）大合集 # 强化学习相关技巧（调参、画图等）文章标签：深度学习算法机器学习神经网络边缘计算

于 2021-07-08 10:24:16 首次发布

涉及博主原创类文章，未经博主许可不允许转载

本文链接：https://blog.csdn.net/sinat_39620217/article/details/118220151

版权

强化学习（原理+项目实战）大合集同时被 2 个专栏收录

48 篇文章 98 订阅 ¥49.90 ¥99.00

订阅专栏

强化学习相关技巧（调参、画图等）

12 篇文章 21 订阅 ¥19.90 ¥99.00

订阅专栏

本文分析了DDPG算法中动作选择边界值问题的原因，指出tanh激活函数导致的动作饱和和梯度消失。解决方案包括网络输入输出的归一化、调整奖励函数以及考虑切换至更稳定的算法如TD3或SAC。作者通过增加神经元数量并适当调整输入输出尺寸，解决了问题。

摘要由CSDN通过智能技术生成

1.原因：

选择动作值只在-1 1之间取值

actor网络输出用tanh，将动作规范在[-1,1]，然后线性变换到具体的动作范围。其次，tanh激活区是有范围的，你的预激活变量（输入tanh的）范围太大，进入了tanh的饱和区，会导致梯度消失，而且tanh输出的自然就靠近边界了

2.解决方案：

1、网络的输入输出都是归一化之后的，buffer里的{s,a,r,s_}都是同一个数量级的，

2、修改reward能指导网络正确选择动作进行输出

3.输入的数据要标准化或者归一化，然后学习率调小一点。

建议换算法，DDPG改成TD3改动很小，SAC对超参数没这么敏感，不要死磕DDPG，可以参考曾伊言：如何选择深度强化学习算法？MuZero/SAC/PPO/TD3/DDPG/DQN/等（

了解本专栏

汀、人工智能

关注

11
点赞
踩
82

收藏

觉得还不错? 一键收藏
打赏
15
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

汀、人工智能 十分感谢您的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。