Elastic step DQN:

DM-DQN: Dueling Munchausen deep Q network for robot path planning(2023 2区)
Ship energy scheduling with DQN-CE algorithm combining bi-directional LSTM and attention mechanism(2023 1区)
Elastic step DQN: A novel multi-step algorithm to alleviate overestimation in
Deep Q-Networks(2024 2区)

Elastic step DQN: A novel multi-step algorithm to alleviate overestimation in Deep Q-Networks

摘要:

解决的问题:DQN长期以来存在发散和不稳定行为,这种不稳定行为通常表现为Q值的高估,通常被称为 高估偏差
本文提出了一种我们称之为“弹性步DQN”(ES-DQN)的新算法,以减轻DQN中的高估偏差。ES-DQN基于访问状态之间的相似性动态变化多步更新的步长范围。

1. 背景

尽管DQN取得了成功,但在训练过程中经常观察到不稳定和发散行为,特别是Q值的过度估计问题,即所谓的过度估计偏差

现有解决方案的局限性:为了解决这些问题,研究者提出了多种启发式扩展,例如多步更新,这些方法在减少不稳定行为和提高训练性能方面显示出潜力。然而,这些方法对多步更新时域(n)的选择非常敏感,不恰当的选择可能导致性能不如单步DQN。

ES-DQN算法的提出:文章提出了一种名为“弹性步DQN”(ES-DQN)的新算法,该算法通过动态调整多步更新的步长范围来适应访问状态之间的相似性,旨在减轻DQN中的过度估计偏差。

ES-DQN的优势:通过实证评估,ES-DQN在多个OpenAI Gym环境中的表现优于固定步长的多步更新方法、双DQN(Double DQN)和平均DQN(Average DQN),同时减轻了过度估计偏差。

2.算法介绍

        弹性步深度Q网络(Elastic Step Deep Q-Networks,简称ES-DQN)的主要目标是将Coarse Q-Learning和多步DQN的思想结合起来,以减少DQN中的过度估计并提高整体性能。ES-DQN算法根据代理当前状态与之前状态之间的相似性,选择是否在每个时间步进行自举。

        核心思想是相似的状态可以聚合成单一更新,而不同的状态应该分别更新。有多种方法可以比较两个状态的相似性,本文采用了无监督聚类算法。无监督聚类算法旨在无需标签的情况下识别数据中的模式。本文使用了一种称为HDBSCAN的算法,该算法在识别非均匀传导性聚类方面非常有效。HDBSCAN是DBSCAN的扩展,由于其对参数选择的鲁棒性,算法在实验中表现出色,不需要参数调整。

1.算法开始时初始化步计数器、采样值、最大集数、最大时间步数、状态记忆库以及聚类算法。

2.在每个时间步,ES-DQN观察当前状态,与环境交互并执行动作,然后观察新的状态和奖励。

3.将当前状态和新状态的隐藏层输出存储在状态记忆库中,并使用聚类算法对它们进行聚类。

4.如果当前状态和新状态被分配到相同的聚类标签,算法将累积奖励并增加步计数器;如果标签不同,则将转换(状态、动作、奖励)存储到重放缓冲区,并重置步计数器

5.ES-DQN从重放缓冲区中随机采样小批量数据,并更新主网络。

6.在每个目标更新间隔,更新目标网络的权重。

(考虑将隐藏节点输出作为特征输入提取到无监督算法中)

3.实验

环境:OpenAI gym environments (Cartpole, Mountain Car and Acrobot)
MushroomRL 框架
三种不同环境下的平均收集奖励。蓝线表示使用原始状态时ES-DON的训练性能,红线表示经过聚类算法后输入时的训练性能。训练性能对30个种子进行平均,阴影区域n表示95%的置信区间。
左三:显示了整个训练时期的平均情景奖励。实线代表平均奖励,而阴影区域代表95%的置信区间。
右三:每个实验中获得的平均奖励与该实验中平均|Q|值之间的关系。虚线表示真实|Q|值估计的上界。

DM-DQN: Dueling Munchausen deep Q network for robot path planning(2023 2区)

将M-DQN的网络结构分解为一个值函数和一个优势函数,从而将动作选择和动作评价解耦,使得状态不再完全依赖于动作的值来进行判断,可以进行单独的值预测。通过消除状态对决策的影响,动作之间的细微差别被更多地提出来,从而允许更快的收敛和更好的模型泛化。

  • 23
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值