Deep Q-Networks(2024 2区)
Elastic step DQN: A novel multi-step algorithm to alleviate overestimation in Deep Q-Networks
摘要:
1. 背景
尽管DQN取得了成功,但在训练过程中经常观察到不稳定和发散行为,特别是Q值的过度估计问题,即所谓的过度估计偏差。
现有解决方案的局限性:为了解决这些问题,研究者提出了多种启发式扩展,例如多步更新,这些方法在减少不稳定行为和提高训练性能方面显示出潜力。然而,这些方法对多步更新时域(n)的选择非常敏感,不恰当的选择可能导致性能不如单步DQN。
ES-DQN算法的提出:文章提出了一种名为“弹性步DQN”(ES-DQN)的新算法,该算法通过动态调整多步更新的步长范围来适应访问状态之间的相似性,旨在减轻DQN中的过度估计偏差。
ES-DQN的优势:通过实证评估,ES-DQN在多个OpenAI Gym环境中的表现优于固定步长的多步更新方法、双DQN(Double DQN)和平均DQN(Average DQN),同时减轻了过度估计偏差。
2.算法介绍
弹性步深度Q网络(Elastic Step Deep Q-Networks,简称ES-DQN)的主要目标是将Coarse Q-Learning和多步DQN的思想结合起来,以减少DQN中的过度估计并提高整体性能。ES-DQN算法根据代理当前状态与之前状态之间的相似性,选择是否在每个时间步进行自举。
核心思想是相似的状态可以聚合成单一更新,而不同的状态应该分别更新。有多种方法可以比较两个状态的相似性,本文采用了无监督聚类算法。无监督聚类算法旨在无需标签的情况下识别数据中的模式。本文使用了一种称为HDBSCAN的算法,该算法在识别非均匀传导性聚类方面非常有效。HDBSCAN是DBSCAN的扩展,由于其对参数选择的鲁棒性,算法在实验中表现出色,不需要参数调整。
1.算法开始时初始化步计数器、采样值、最大集数、最大时间步数、状态记忆库以及聚类算法。
2.在每个时间步,ES-DQN观察当前状态,与环境交互并执行动作,然后观察新的状态和奖励。
3.将当前状态和新状态的隐藏层输出存储在状态记忆库中,并使用聚类算法对它们进行聚类。
4.如果当前状态和新状态被分配到相同的聚类标签,算法将累积奖励并增加步计数器;如果标签不同,则将转换(状态、动作、奖励)存储到重放缓冲区,并重置步计数器。
5.ES-DQN从重放缓冲区中随机采样小批量数据,并更新主网络。
6.在每个目标更新间隔,更新目标网络的权重。
(考虑将隐藏节点输出作为特征输入提取到无监督算法中)
3.实验
![](https://i-blog.csdnimg.cn/direct/ee93155f7e454ba29b6566de0cb604f8.png)
![](https://i-blog.csdnimg.cn/direct/682c7eb01ada4203b233e668db179c40.png)
![](https://i-blog.csdnimg.cn/direct/47a3fd03d9cf4867b0a63506054dd5e2.png)
DM-DQN: Dueling Munchausen deep Q network for robot path planning(2023 2区)
将M-DQN的网络结构分解为一个值函数和一个优势函数,从而将动作选择和动作评价解耦,使得状态不再完全依赖于动作的值来进行判断,可以进行单独的值预测。通过消除状态对决策的影响,动作之间的细微差别被更多地提出来,从而允许更快的收敛和更好的模型泛化。