深度强化学习调参技巧：以DQN、DDPG、TD3、PPO、SAC等算法为例

汀、人工智能

已于 2023-07-18 10:41:11 修改

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： # 强化学习相关技巧（调参、画图等）文章标签：算法人工智能深度学习强化学习深度强化学习 DDPG TD3

于 2023-07-14 15:08:20 首次发布

涉及博主原创类文章，未经博主许可不允许转载

本文链接：https://blog.csdn.net/sinat_39620217/article/details/131723905

强化学习相关技巧（调参、画图等）专栏收录该内容

13 篇文章 ¥19.90 ¥99.00

订阅专栏

深度强化学习 Deep Reinforcement Learning 简称为 DRL
运行 DRL 算法代码（实际使用 + 调整参数），需要更多 DL 基础
阅读 DRL 算法论文（理解原理 + 改进算法），需要更多 RL 基础

深度强化学习算法能训练能智能体: 机械臂取物、飞行器避障、控制交通灯、机器人移动、交易股票、训练基站波束成形选择合适的权重超越传统算法。实际使用时，问题却很多:

一开始会问：算法那么多，要选哪个？训练环境怎么写？
选完后会问：**算法怎么调参？**收益函数 reward function 要怎么改？(看的人多，有空再写，太长了)

后一个问题，就是当前这篇文章深度强化学习调参技巧：以 D3QN、TD3、PPO、SAC 算法为例

1.训练环境怎么写

强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下：

初始阶段：

不要一步到位，先写一个简化版的训练环境。把任务难度降到最低，确保一定能正常训练。
记下这个正常训练的智能体的分数，与随机动作、传统算法得到的分数做比较。DRL 算法的分数应该明显高于随机动作（随机执行动作）。DRL 算法不应该低于传统算法的分数。如果没有传统算法，那么也需要自己写一个局部最优的算法（就算只比随机动作的算法高一点点都可以，有能力的情况下，要尽量写好）。
评估策略的性能: 大部分情况下，可以直接是对 Re

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

汀、人工智能 十分感谢您的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。