No.15
智源社区
强化学习组
强
化
学
习
研究
观点
资源
活动
关于周刊
强化学习作为人工智能领域研究热点之一,深度学习和强化学习相结合的研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第15期《强化学习周刊》。本期周刊整理了近期深度强化学习领域相关的最新论文推荐、综述等,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:(李明,刘青)
论文推荐
深度强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。深度强化学习在总结多次学习策略的情况下,以不断改进学习算法。近年来,该方向已经取得了一系列瞩目的进展,比如交通信号控制、机器人控制、未知探索、公交车时刻表优化等。故深度强化学习领域具有较大的潜在研究优势。
深度强化学习的应用越来越多,其在交通信号控制、机器人等方面都有了深入的研究。本次推荐了8篇深度强化学习领域的相关论文,主要涉及应用于基于公平性交通信号控制、交通信号优化、公交车时刻表优化、感知奖励等。
标题:A Deep Reinforcement Learning Approach for Fair Traffic Signal Control(一种用于公平性交通信号控制的深度强化学习方法)了解详情
简介:交通信号控制是城市交通管理中最有效的方法之一。近年来,基于深度强化学习(DRL)的交通控制方法因其对实时交通数据的挖掘能力而受到广泛关注,而传统的手工方法往往使用较少。最近的基于DRL的方法主要集中在最大化车辆的吞吐量或最小化车辆的平均行驶时间,而交通信号控制器的公平性常常被忽略。这一点尤其重要,因为忽略公平性可能导致某些车辆经历极端等待时间,或者特定交通流的吞吐量受到交叉口另一冲突流量波动的高度影响。为了解决这些问题,本文引入了两个公平性的概念:基于延迟的公平性和基于吞吐量的公平性。此外,本文还提出了两种基于DRL的交通信号控制方法来实现这些公平性概念,这两种方法都可以获得较高的吞吐量。最后通过使用三种流量到达分布来评估其提出方法的性能,研究结果表明该方法在测试场景中的性能优于基准。
论文地址:https://arxiv.org/abs/2107.10146
标题:MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement Learning and Procedurally Generated Environments(MarsExplorer:基于深度强化学习和程序生成环境探索未知地形)了解详情
简介:本文是为弥合强大的深度强化学习方法与未知地形的探索/覆盖问题之间的差距所做的初步努力。在此范围内,提出了 MarsExplorer,这是一个适合探索/覆盖未知区域的开放式gym兼容的环境。MarsExplorer 将最初的机器人问题转化为各种现成算法以解决的强化学习设置。任何学习策略都可以直接应用于机器人平台,而无需机器人动力学的精细模拟模型来应用不同的学习/适应阶段。其核心特征之一是可控的多维程序生成地形,这是生成具有强大泛化能力的策略的关键。在 MarsExplorer 环境中训练了四种不同的最先进 RL 算法(A3C、PPO、Rainbow 和 SAC),并报告了对它们的结果与平均人类水平表现相比的正确评估。在后续的实验中分析了多维难度设置对最佳性能算法(PPO)学习能力的影响。一个里程碑结果是生成遵循希尔伯特曲线的探索策略,而不向环境提供此信息或直接或间接奖励类似希尔伯特曲线的轨迹。实验结果通过将 PPO 学习的策略结果与基于边界的探索背景下进行了比较。
论文地址:https://arxiv.org/pdf/2107.09996.pdf
标题:Bayesian Controller Fusion: Leveraging Control Priors in Deep Reinforcement Learning for Robotics(贝叶斯控制器融合:在机器人深度强化学习中利用控制先验)了解详情
简介:本文提出了贝叶斯控制器融合 (BCF):一种混合控制策略,结合了传统手工控制器和无模型深度强化学习 (RL) 的优势。BCF 在机器人领域蓬勃发展,其中许多任务存在可靠但次优的控制先验,但从头开始的 RL 仍然不安全且数据效率低下。通过融合来自每个系统的不确定性感知分布输出,BCF 仲裁它们之间的控制,利用它们各自的优势。本文在两个真实世界的机器人任务中研究 BCF,这些任务涉及在广阔的长视野环境中进行导航,以及一个涉及可操纵性最大化的复杂到达任务。对于这两个域,都存在简单的手工控制器,其可以以规避风险的方式解决手头的任务,但鉴于分析建模、控制器错误校准和任务变化的限制,不一定能提供最佳解决方案。由于在训练的早期阶段探索自然受到先验的指导,BCF 加速了学习,同时随着策略获得更多经验,显着提高了控制先验的性能。更重要的是,考虑到先验控制的风险规避,BCF确保了安全的勘探和部署,其中控制优先权在政策未知的状态下自然支配着行动分布。此外,本文还展示了BCF对零炮模拟现实环境的适用性,以及它处理现实世界中分布外状态的能力。BCF是一种很有前途的方法,它将深度RL和传统机器人控制的互补优势结合起来,超越了两者各自可以独立实现的优势。
论文地址:https://arxiv.org/pdf/2107.09822.pdf
标题:Deep Reinforcement Learning based Dynamic Optimization of Bus Timetable(基于深度强化学习的公交时刻表动态优化)了解详情
简介:公交时刻表优化是公交公司降低运营成本、提高服务质量的关键问题。现有的方法采用精确算法或启发式算法离线优化时刻表。实际上,随着时间的推移,客流可能会发生显著变化。离线确定的时刻表不能调整发车间隔以满足变化的客流。为了提高公交时刻表的在线性能,本文提出了一种基于深度强化学习的公交时刻表动态优化方法(DRL-TO)。该方法将时刻表优化问题看作一个序列决策问题。采用深度Q网络(DQN)作为决策模型,在服务周期的每一分钟决定是否调度公交服务。因此,巴士服务的发车间隔是根据乘客需求实时确定的。其确定了一些新的和有用的状态特征的DQN,包括负荷系数,载客能力利用率,和搁浅乘客的数量。同时考虑公交公司和乘客的利益,设计了一个奖励函数,包括满载率、空载率、乘客等待时间、滞留乘客数等指标。在现有公交车站通过能力计算方法的基础上,又提出了一种提高公交车站匹配度的新方法。实验表明,与基于记忆算法(BTOA-MA)、遗传算法(GA)和人工方法的最新公交时刻表优化方法生成的时刻表相比,DRL-TO可以根据实时客流动态确定发车间隔,节省8%。
论文地址:https://arxiv.org/pdf/2107.07066.pdf
标题:A Deep Reinforcement Learning Approach for Traffic Signal Control Optimization( 基于深度强化学习的交通信号控制优化)了解详情
简介:低效的交通信号控制方法可能会导致许多问题,例如交通拥堵和能源浪费。强化学习 (RL) 是一种趋势数据驱动的方法,用于复杂城市交通网络中的自适应交通信号控制。尽管深度神经网络 (DNN) 的发展进一步增强了其学习能力,但将深度 RL 应用于具有多个信号交叉口的交通网络仍存在一些挑战,包括非平稳环境、探索开发困境、多智能体训练方案、连续动作空间等。为了解决这些问题,本文首先通过扩展actor-critic策略梯度算法,提出了一种多智能体深度确定性策略梯度(MADDPG)方法。MADDPG 具有集中学习和分散执行范式,其中批评者使用附加信息来简化培训过程,而参与者则根据自己的本地观察采取行动。在城市交通仿真平台(SUMO)上对该模型进行了仿真评价。模型比较结果表明了该算法在交通信号灯控制中的有效性。
论文地址:
https://arxiv.org/ftp/arxiv/papers/2107/2107.06115.pdf
标题:Variance aware reward smoothing for deep reinforcement learning(深度强化学习的方差感知奖励平滑)了解详情
简介:强化学习 (RL) 代理与环境交互,通过尝试和失败来学习具有高累积奖励的策略。然而,RL 受制于其自身的试错学习性质,这导致了不稳定的学习过程。在本文中,文章研究了在后期 RL 训练阶段称为奖励下降的常见现象,其中奖励轨迹剧烈振荡。为了解决这个问题,文章提出了一种新颖的奖励塑造技术,称为方差感知奖励平滑(VAR)。实验表明,所提出的方法在不改变价值函数的公式的情况下减少了奖励的方差并减轻了奖励下降问题。此外,还提供了 VAR 收敛的理论分析,这是从γ-收缩算子和值函数的不动点属性。最后,理论结果通过不同随机种子的各种基准和高级算法的广泛结果来说明,以证明 VAR 的有效性和兼容性。
论文地址:https://www.sciencedirect.com/science/article/pii/S0925231221009139
标题:Orientation-Preserving Rewards' Balancing in Reinforcement Learning(强化学习中的方向保持奖励平衡)了解详情
简介:辅助奖励广泛用于复杂的强化学习任务。然而,之前的工作很难避免辅助奖励对追求主要奖励的干扰,从而导致最优策略的破坏。因此,平衡主要和辅助奖励具有挑战性但必不可少。本文明确地将奖励平衡问题表述为寻找帕累托最优解,总体目标是保持策略对主要奖励的优化方向(即平衡奖励驱动的策略与策略一致)由主要奖励驱动)。为此,提出了一个变体帕累托,并表明它可以有效地引导策略搜索朝着更多的主要奖励方向发展。此外,我们建立了奖励的迭代学习框架 平衡并理论分析其收敛性和时间复杂度。在离散(和连续环境中的实验表明,与具有启发式设计奖励的 RL 相比,算法可以有效地平衡奖励,并取得显着的性能。在 ViZDoom 平台上,我们的算法可以学习专家级的策略。
论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9452798
标题:Visual Analytics for RNN-Based Deep Reinforcement Learning(基于RNN的深度强化学习的可视化分析)了解详情
简介:深度强化学习(DRL)旨在训练智能体与预定义的环境进行交互,并努力通过深度神经网络(DNN)实现特定的目标。基于递归神经网络(RNN)的DRL具有出色的性能,因为RNN可以有效捕获环境的时间演变并以适当的代理动作做出响应。但是,除了出色的性能外,对于RNN如何在内部了解环境以及随着时间的推移所记忆的内容知之甚少。揭示这些细节对于深度学习专家理解和改进DRL非常重要,相反,由于这些模型内部复杂的数据转换,这也具有挑战性。在本文中,提出了深度强化学习交互式Visual Explorer(DRLIVE),一个可视分析系统,可以有效地探索,解释和诊断基于RNN的DRL。DRLIVE专注于针对不同Atari游戏进行了培训的DRL代理,旨在完成三项任务:游戏情节探索,RNN隐藏/单元状态检查以及交互式模型扰动。使用该系统,可以通过交互式可视化来灵活地探索DRL智能体,通过使用一组度量对RNN隐藏/单元状态进行优先级排序来发现可解释的RNN单元,并通过交互地干扰其输入来进一步诊断DRL模型。通过与多位深度学习专家的具体研究,验证了DRLIVE的功效。RNN隐藏/单元状态检查,以及交互式模型扰动。
论文地址:https://ieeexplore.ieee.org/document/9420254/
综述
多智能体深度强化学习:类人方法的挑战和方向了解详情
简介:本文综述了多智能体深度强化学习研究领域。近年来,深度神经网络与强化学习的结合得到了越来越多的关注,并逐渐从单智能体环境转向多智能体环境。处理多个智能体本质上更为复杂,因为(a)未来的奖励取决于多个参与者的联合行动;(b)函数的计算复杂性增加。本文介绍了最常见的多智能体问题表示及其主要挑战,并确定了解决其中一个或多个挑战的五个研究领域:集中训练和分散执行、对手建模、通信、有效协调和奖励塑造。本文研究发现许多计算研究依赖于不切实际的假设,或者不能推广到其他环境;其努力克服维度或非平稳性的诅咒。从心理学和社会学的方法捕捉有前途的相关行为,如沟通和协调。本文建议,为了使多智能体强化学习取得成功,未来的研究将通过跨学科的方法来解决这些挑战,为多智能体强化学习中更人性化的解决方案开辟新的可能性。
多智能体深度强化学习:综述了解详情
简介:强化学习的进步已记录了各个领域的卓越成就。尽管在此过程中,多智能体领域已被其单智能体领域所遮盖,但多智能体强化学习获得了快速发展的动力,最新成果解决了现实世界中的复杂性问题。本文概述了多智能体深度强化学习领域的最新发展。主要关注近年来的文献,这些文献结合了深度强化学习方法和多智能体方案。主要内容分为三个部分。首先,分析了用于训练多个特工的训练方案的结构。第二,考虑了合作,竞争和混合场景中代理行为的新兴模式。第三,我们系统地枚举了多智能体领域中唯一出现的挑战,并回顾了用于应对这些挑战的方法。总结本综述,讨论了研究进展,确定趋势并概述了该研究领域未来工作的可能方向。
如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,加入强化学习兴趣群。