深度强化学习调参技巧:以DQN、DDPG、TD3、PPO、SAC等算法为例

  • 深度强化学习 Deep Reinforcement Learning 简称为 DRL
  • 运行 DRL 算法代码(实际使用 + 调整参数),需要更多 DL 基础
  • 阅读 DRL 算法论文(理解原理 + 改进算法),需要更多 RL 基础

深度强化学习算法能训练能智能体: 机械臂取物、飞行器避障、控制交通灯、机器人移动、交易股票、训练基站波束成形选择合适的权重超越传统算法。实际使用时,问题却很多:

  • 一开始会问:算法那么多,要选哪个?训练环境怎么写?
  • 选完后会问:**算法怎么调参?**收益函数 reward function 要怎么改?(看的人多,有空再写,太长了)

后一个问题,就是当前这篇文章 深度强化学习调参技巧:以 D3QN、TD3、PPO、SAC 算法为例

1.训练环境怎么写

强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下:

初始阶段:

  • 不要一步到位,先写一个简化版的训练环境。把任务难度降到最低,确保一定能正常训练。
  • 记下这个正常训练的智能体的分数,与随机动作、传统算法得到的分数做比较。DRL 算法的分数应该明显高于随机动作(随机执行动作)。DRL 算法不应该低于传统算法的分数。如果没有传统算法,那么也需要自己写一个局部最优的算法(就算只比随机动作的算法高一点点都可以,有能力的情况下,要尽量写好)。
  • 评估策略的性能: 大部分情况下,可以
  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
DQNDDPG、TRPO、A3C、PPOSACTD3 是深度强化学习算法中常见的几种。它们在算法原理和训练方式上有一些区别。 1. DQN(Deep Q-Network)是一种基于Q-learning的算法,通过使用深度神经网络来近似Q函数。它适用于离散动作空间的问题。 2. DDPG(Deep Deterministic Policy Gradient)是一种适用于连续动作空间的算法。它结合了DQN和确定性策略梯度方法,使用了一个Actor网络来学习策略函数,同时使用一个Critic网络来评估策略的价值。 3. TRPO(Trust Region Policy Optimization)是一种基于策略梯度的算法。它通过限制策略更新的幅度,来确保每次更新后的策略在一定程度上比之前的策略更好。 4. A3C(Asynchronous Advantage Actor-Critic)是一种并行化的强化学习算法。它通过多个并行的智能体来加速训练,并使用Actor-Critic框架进行更新。 5. PPO(Proximal Policy Optimization)是一种基于策略梯度的算法,它通过限制策略更新的幅度和使用剪切优化目标函数的方式来提高稳定性和效率。 6. SAC(Soft Actor-Critic)是一种基于最大熵强化学习算法。它在策略优化过程中加入了最大熵正则化项,以提高探索性和学习效果。 7. TD3(Twin Delayed Deep Deterministic Policy Gradient)是DDPG的改进版本,它使用了双Critic网络来减轻Q函数估计的偏差,并采用延迟更新策略来增加训练的稳定性。 总体来说,这些算法在目标函数、更新策略、网络结构和训练方式等方面有所区别,针对不同的问题和环境选择适合的算法是很重要的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀、人工智能

谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值