强化学习之multi-step DQN

参考链接1
参考链接2

在这里插入图片描述
Multi-step DQN(多步DQN)是一种强化学习算法,是在经典的深度Q网络(DQN)的基础上进行扩展的。它通过引入多步回报(multi-step return)来加速学习和提高样本效率。

传统的DQN算法使用一步回报(one-step return),即在每个时间步只考虑当前奖励和下一个状态的Q值。而Multi-step DQN则通过考虑未来多个时间步的奖励来计算回报,从而更充分地利用了环境的延迟奖励信号。

Multi-step DQN的核心思想是使用一个固定的步数n来定义多步回报,记为n-step return。在每个时间步,从当前状态开始,执行n步动作,累积对应的奖励,并以n步后的状态的Q值作为目标值进行训练。

算法步骤如下:

  • 初始化一个深度神经网络作为值函数近似器,用于估计状态动作值函数Q(s, a)。

  • 初始化经验回放缓冲区,用于存储交互数据。

  • 对于每个时间步,执行以下步骤:

    a. 根据当前状态选择动作,可以使用ε-greedy等策略。

    b. 执行选定的动作,观察下一个状态和奖励。

    c. 将当前状态、动作、奖励、下一个状态和终止状态信息存储到经验回放缓冲区中。

    d. 如果经验回放缓冲区中的样本数量达到一定阈值,从缓冲区中随机抽样一批样本用于训练。

    对于每个样本,计算n-step return,即从当前步开始执行n步动作后的累积奖励。
    使用n-step后的状态的Q值作为目标值,计算损失并更新值函数近似器的参数。

    e. 更新当前状态为下一个状态。

  • 重复步骤3直到达到预设的训练轮数或收敛条件。

Multi-step DQN通过引入多步回报来增加了学习的速度和效率,同时更好地利用了环境中的延迟奖励信号。通过在训练过程中使用n-step return作为目标值,可以减少更新的方差,从而提高训练的稳定性和效果。

仿真的时候要倒序写,因为要算n-steps的reward,step越靠前面,乘的$\gamma$的次方就越多,所有先从最后面的step数据,然后依次累加

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DQN用户一轮一轮训练强化学习收敛的过程是通过多步回报来增加学习的速度和效率的。在训练过程中,使用n-step return作为目标值来减少更新的方差,提高训练的稳定性和效果。每轮训练结束后,需要通过梯度下降更新参数,更新次数为本轮训练的步数。如果希望每轮训练结束后将记忆中的所有数据都用来训练,可以设置记忆容量为本轮训练的步数乘以批量大小。\[1\]\[2\] DQN的收敛性也受到一些因素的影响。首先,DRL的样本利用率通常较低,需要大量的训练样本才能使模型的表现达到一定高度。此外,DRL很容易受到环境的过拟合影响,而且算法的稳定性也是一个挑战。然而,一些好用的算法如D3QN、SAC和PPO具有较少的超参数,并且调整这些超参数对训练的影响较小,因此可以更快地收敛并获得较高的得分。\[3\] #### 引用[.reference_title] - *1* [强化学习multi-step DQN](https://blog.csdn.net/qq_45889056/article/details/130621187)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [深度强化学习DRL训练指南和现存问题(D3QN(Dueling Double DQN))](https://blog.csdn.net/qq_28838891/article/details/127723239)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值