《强化学习周刊》第40期：PMIC多智能体强化学习、Lazy-MDPs、CTDS

智源社区

于 2022-03-28 13:37:29 发布

阅读量695

点赞数

文章标签：算法大数据编程语言 python 机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247520012&idx=3&sn=cd6f5f11c59e95a336badff90f35c689&chksm=febcccc8c9cb45de2b10fa8b9eec9d965a29b48b2b37db4ca2b3b7dfc6db04e7b1aa1be61e50&scene=126&&sessionid=0

版权

本期强化学习周刊精选了12篇前沿论文，涵盖半马尔可夫离线强化学习、多智能体强化学习等多个主题。此外，还包括了研究综述与评论文章，深入探讨了城市网络交通信号控制中的强化学习应用等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

No.40

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第40期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如半马尔可夫离线强化学习、多智能体强化学习、近似强化学习相关的理论及其最新应用等。

本次推荐了12篇强化学习领域的相关论文，主要涉及于医疗保健中的半马尔可夫离线强化学习、PMIC：基于渐进式互信息协作改进多智能体强化学习、惰性MDPs：通过学习何时行动来实现可解释的强化学习、基于意外崩溃智能体的教练辅助多Agent强化学习框架、CTDS：基于多智能体强化学习的集中式教师和分散式学生、选择性粒子注意：快速灵活地选择深度强化学习的特征、用于建筑应用的基于智能动态模型选择的delta并联机器人后退控制、使用多智能体强化学习进行动态分布式约束优化、复杂场景下基于自适应环境建模的强化学习避障算法研究、使用瓶颈转换链分解和解决具有隐藏状态的强化学习任务、悲观主义在异步Q学习中的作用、一种受控扩散过程的近似强化学习算法等。

标题：Semi-Markov Offline Reinforcement Learning for Healthcare（医疗保健中的半马尔可夫离线强化学习）了解详情

简介：强化学习（RL）任务通常被定义为马尔可夫决策过程（MDP），假设决策是在固定的时间间隔内做出的。然而，包括医疗保健在内的许多非常重要的应用程序并不满足这一假设，但它们通常在对数据进行人工重塑后被建模为MDP。此外，大多数医疗（及类似）问题本质上是离线的，只允许进行回顾性研究。为此，本文首先讨论了Semi-MDP（SMDP）框架，该框架正式处理可变时间的操作。其提出一种将SMDP修改应用于几乎任何基于给定值的离线RL方法的正式方法。利用这一理论介绍了三种基于SMDP的离线RL算法，即SDQN、SDDQN和SBCQ。实证研究证明，这些基于SMDP的算法可以在这些可变时间环境中学习最优策略，而MDP模型的非定向修改会导致次优策略。最后，将该新算法应用于与预防中风的华法林剂量相关的真实离线数据集，并展示了类似的结果。

论文链接：https://arxiv.org/pdf/2203.09365.pdf

标题：PMIC: Improving Multi-Agent Reinforcement Learning with Progressive Mutual Information Collaboration（PMIC：基于渐进式互信息协作改进多智能体强化学习）了解详情

简介：学习协作在多智能体强化学习 (MARL) 中至关重要。许多先前的工作通过最大化代理行为的相关性来促进协作，这通常以不同形式的互信息（MI）为特征。然而，本文揭示了强相关性可能来自次优的协作行为，而仅仅是最大化MI可能会阻碍学习向更好的协作方向发展。为此，本文提出了一种新的 MARL 框架，称为渐进式互信息协作 (PMIC)，以实现更有效的 MI 驱动的协作。在 PMIC 中，其使用一种新的协作标准，由全球状态和联合行动之间的 MI 衡量。根据标准，PMIC 的关键思想是最大化与优秀协作行为相关的 MI，并最小化与劣等协作行为相关的 MI。这两个 MI 目标通过促进学习以实现更好的协作同时避免陷入次优目标，从而发挥互补作用。即PMIC 存储并逐步维护一组优越和劣质的交互体验，从中建立双 MI 神经估计器。对各种 MARL 基准的实验表明，与其他算法相比，PMIC 的性能更优越。

论文链接：https://arxiv.org/pdf/2203.08553.pdf

标题：Lazy-MDPs: Towards Interpretable Reinforcement Learning by Learning When to Act（惰性MDPs：通过学习何时行动来实现可解释的强化学习）了解详情

简介：传统上，强化学习（RL）旨在决定如何对人工智能体进行优化。本文认为，决定何时采取行动同样重要。为了增强具有这种能力的RL代理，本文提出增强标准马尔可夫决策过程，并提供一种新的行动模式：懒惰，这将决策推迟到默认策略。此外，该惩罚非懒惰行为，以鼓励最小的努力，并让代理只关注关键决策。将由此产生的形式主义命名为懒惰的MDP。其表达了价值函数和表征最优解。根据经验证明，在惰性MDP中学习的策略通常具有某种形式的可解释性：通过构造，其展示了智能体控制默认策略的状态。这些状态和相应的操作解释了默认策略和新的懒惰策略之间的性能差异。以次优策略作为默认策略（预训练或随机），在Atari游戏中，智能体能够获得竞争性性能，同时只在有限的状态子集中进行控制。

论文链接：https://arxiv.org/pdf/2203.08542.pdf

标题：Coach-assisted Multi-Agent Reinforcement Learning Framework for Unexpected Crashed Agents（基于意外崩溃智能体的教练辅助多Agent强化学习框架）了解详情

简介：多智能体强化学习在实践中难以应用，部分原因是模拟场景与现实场景之间存在差距。造成差距的一个原因是模拟系统总是假设智能体可以一直正常工作，而在实践中，由于不可避免的硬件或软件故障，一个或多个智能体可能会在协调过程中意外“崩溃”。从而导致性能下降。本文提出了具有意外崩溃的协作多智能体强化学习系统的形式化描述。为增强系统对崩溃的鲁棒性，其提出了教练辅助的多智能体强化学习框架，它引入了虚拟教练代理来调整训练期间的崩溃率。通过为教练代理设计了三种教练策略和重新采样策略。此工作是首次研究多智能体系统中意外崩溃的研究。与固定崩溃率策略和课程学习策略相比，网格世界和星际争霸 II 微观管理任务的大量实验证明了自适应策略的有效性。消融研究进一步说明了该研究重新采样策略的有效性。

论文链接：https://arxiv.org/pdf/2203.08454.pdf

标题：CTDS: Centralized Teacher with Decentralized Student for Multi-Agent Reinforcement Learning（CTDS：基于多智能体强化学习的集中式教师和分散式学生）了解详情

简介：由于多智能体强化学习（multi-agent reinforction learning，MARL）任务的部分可观测性和通信约束，分散执行集中训练（centralized training with discentral execution，CTDE）已成为应用最广泛的MARL范式之一。在CTDE中，集中信息用于通过混合网络学习团队奖励的分配，而个人Q值的学习通常基于局部观察。全局观测的效用不足将降低在充满挑战的环境中的性能。为此，本文提出了一种新颖的集中式教师与分散式学生（CTDS）框架，该框架由教师模型和学生模型组成。即教师模型通过学习以全局观察为条件的个人Q值来分配团队奖励，而学生模型则利用部分观察来近似教师模型估计的Q值。通过这种方式，CTDS平衡了训练期间对全局观察的充分利用和在线推理分散执行的可行性。CTDS框架是通用的，可以应用于现有的CTDE方法，以提高其性能。在具有挑战性的星际争霸II微观管理任务上进行了实验，以测试该方法的有效性，结果表明CTDS优于现有的基于价值的MARL方法。

论文链接：https://arxiv.org/pdf/2203.08412.pdf

标题：Selective particle attention: Rapidly and flexibly selecting features for deep reinforcement learning（选择性粒子注意：快速灵活地选择深度强化学习的特征）了解详情

简介：深度强化学习 (RL) 经常被批评为数据效率低且对任务结构的变化不灵活。这些问题的部分原因是 Deep RL 通常使用反向传播进行端到端学习，这会产生特定于任务的表示。生物智能体似乎通过在许多任务上形成内部表示并仅根据手头的任务选择这些特征的一个子集进行决策来解决这个问题。本文从生物智能体中的选择性注意中汲取灵感，并提出了一种称为选择性粒子注意 (SPA) 的新算法，该算法为深度强化学习选择现有表示的子集。并且这些子集不是通过反向传播学习的，反向传播很慢且容易过度拟合，而是通过粒子过滤器学习，该过滤器仅使用奖励反馈快速灵活地识别特征的关键子集。本文在涉及原始像素输入和任务结构动态变化的两个任务上评估 SPA，并表明它极大地提高了下游深度 RL 算法的效率和灵活性。

论文链接：https://www.sciencedirect.com/science/article/pii/S0893608022000934

标题：Dynamic distributed constraint optimization using multi-agent reinforcement learning（使用多智能体强化学习进行动态分布式约束优化）了解详情

简介：动态分布式约束优化问题（动态 DCOP）的一个固有困难是在当前时间进行分配时未来事件的不确定性。这种依赖性在研究界没有得到很好的解决。本文提出了一种基于强化学习的动态分布式约束优化求解器。本文表明，强化学习技术是随着时间的推移解决给定问题的一种替代方法，并且在计算上比顺序 DCOP 求解器更有效。本文还使用新的启发式方法来获得正确的结果，并描述了一种形式主义，该形式主义已被用于对具有协作智能体的动态 DCOP 进行建模。本文通过实验结果在动态武器目标分配（动态 WTA）问题中评估了这种方法。本文观察到系统动态 WTA 问题在满足约束条件的同时收敛后仍然是一个安全区域。此外，在实验中已经实现了最终收敛到正确分配的智能体。

论文链接：https://link.springer.com/content/pdf/10.1007/s00500-022-06820-7.pdf

标题：Back-stepping control of delta parallel robots with smart dynamic model selection for construction applications（用于建筑应用的基于智能动态模型选择的delta并联机器人后退控制）了解详情

简介：机器人操纵器在施工领域的应用反响不好；然而，在外部负载和取放操作中存在干扰的情况下，系统动态的变化是不可避免的。为了避免这一点，本文引入了一种新颖的智能在线动态模型选择，并伴随着一个在 3 度自由度 (DOF) Delta 并联机器人上实现的反步滑模控制器。为了适应扰动的主导行为，基于外部载荷的降阶扩展模型以在线方式进行识别；此后，利用离线强化学习方法进行智能动态模型选择。因此，出现了一个强大的进化控制器，能够在任何外部负载配置下执行拾取和放置任务，与拟合单个外部模型相比，形成更好的跟踪属性。数据驱动的方法有可能使用派生模型的内核进一步改善外部负载的主导行为识别，为未来的工作开辟新的途径。

论文链接：https://www.sciencedirect.com/science/article/pii/S092658052200084X/pdfft?md5=1a490756b478c52f26531f5a7ecdf1da&pid=1-s2.0-S092658052200084X-main.pdf

标题：Adaptive Environment Modeling Based Reinforcement Learning for Collision Avoidance in Complex Scenes（复杂场景下基于自适应环境建模的强化学习避障算法研究）了解详情

简介：拥挤场景中机器人导航避碰的主要挑战在于准确的环境建模、快速的感知和可信赖的运动规划策略。本文提出了一种新颖的基于自适应环境模型的防撞强化学习（即 AEMCARL）框架，用于无人驾驶机器人在具有挑战性的导航场景中实现无碰撞运动。新颖之处在于三个方面：（1）开发用于环境建模的门控循环单元（GRU）的层次网络；(2) 开发带有注意力模块的自适应感知机制；(3) 为强化学习 (RL) 框架开发自适应奖励函数，以联合训练环境模型、感知函数和运动规划策略。所提出的方法使用 Gym-Gazebo 模拟器和一组机器人（Husky 和 Turtlebot）在各种拥挤场景下进行了测试。

论文链接：https://arxiv.org/pdf/2203.07709

标题：Using chains of bottleneck transitions to decompose and solve Reinforcement Learning tasks with hidden states（使用瓶颈转换链分解和解决具有隐藏状态的强化学习任务）了解详情

简介：在部分可观察性的情况下，强化学习在大型和模棱两可的问题领域中表现不佳。在这种情况下，任务的适当分解可以改善和加速学习过程。与大多数现实生活中的问题一样，任务的分解通常源于为了完成主要任务而必须完成的子任务序列。在本文研究中，假设预先提供了明确的状态，智能体基于一组瓶颈转换链构建问题的分解，这些瓶颈转换是通向目标状态的明确和关键转换的序列。在更高的层次上，智能体训练其子智能体以提取与子任务对应的子策略，即任何链中的两个连续转换，并在抽象级别学习每个子策略的值。实验研究表明，基于有用的瓶颈转换的早期分解消除了过多记忆的必要性并提高了智能体的学习性能。它还表明，了解分解中瓶颈转换的正确顺序会导致更快地构建解决方案。

论文链接：https://www.sciencedirect.com/science/article/pii/S0167739X22000917

标题：The Efficacy of Pessimism in Asynchronous Q-Learning（悲观主义在异步Q学习中的作用）了解详情

简介：本文研究异步形式的Q-学习，它将随机逼近方案应用于马尔可夫数据样本。基于离线强化学习的最新进展，本文将悲观主义原理融入异步Q-学习，该框架基于合适的置信下限（LCB）惩罚不常访问的状态-动作对。本文的方法允许某些重要场景中的观测数据只覆盖部分状态-动作空间，这与之前的理论形成鲜明对比，之前的理论要求统一覆盖所有状态-动作对。在目标精度足够小的情况下，结合方差缩减的思想，采用LCB惩罚的异步Q学习可以获得接近最优的样本复杂度。相比之下，即使允许进行i.i.d.采样，就有效视界的依赖性而言，之前的工作也不是最理想的。本文的研究结果为在存在马尔可夫非i.i.d.数据的情况下使用悲观主义原则提供了第一个理论支持。

论文链接：https://arxiv.org/pdf/2203.07368

标题：An Approximate Reinforcement Learning Algorithm for Controlled Diffusion Processes（一种受控扩散过程的近似强化学习算法）了解详情

简介：本文研究了连续时间随机控制问题的强化学习算法。所提出的算法通过在分段恒定控制过程下离散状态和控制动作空间来使用采样状态过程。本文证明了该算法收敛于有限马尔可夫决策过程（MDP）的最优性方程。利用这个MDP模型，给出了连续时间控制问题最优值函数的逼近误差的上界。此外，本文给出了与原问题的最优容许控制过程相比，学习控制过程的性能损失的上界。所提供的误差上界是时间和空间离散化参数的函数，它们揭示了不同近似级别的影响：(i)用MDP近似连续时间控制问题，(ii)使用分段常数控制过程，(iii)空间离散化。最后，本文给出了该算法的时间复杂度界，作为时间和空间离散化参数的函数。

论文链接：https://arxiv.org/pdf/2203.07499

研究综述

标题：Reinforcement learning in urban network traffic signal control: A systematic literature review（城市网络交通信号控制中的强化学习：系统性综述）了解详情

简介：交通信号控制（TSC）效率的提高已被发现能改善城市交通和提高生活质量。最近，强化学习（RL）在TSC的各个领域得到了广泛的应用，本文进行了一次系统的文献综述，作为一次系统的、全面的、可重复的综述，以剖析所有在网络级TSC领域应用RL的现有研究，为简洁起见，称为NTSC中的RL或RL-NTSC。该综述仅针对在两个或两个以上交叉口的网络中测试拟议方法的网络级文章。这篇综述涵盖了从1994年到2020年3月发表的来自30个国家的160篇同行评议文章。本研究的目标是为研究界提供统计和概念知识，总结存在证据，描述RL在NTSC领域的应用，探索定义范围内的所有应用方法和主要首次事件，并根据当前研究中探索的研究问题确定进一步研究的领域。

论文链接：https://www.sciencedirect.com/science/article/pii/S0957417422002858

标题：Fraunhofer研究院&FAU | 多智能体强化学习及其其在自主移动中的应用综述了解详情

简介：移动性和流量中的许多场景涉及多个不同的智能体，它们需要合作以找到联合解决方案。行为规划的最新研究进展使用强化学习来寻找有效和高效的行为策略。然而，随着自动驾驶汽车和车对 X 通信变得更加成熟，仅使用单个独立智能体的解决方案在道路上留下了潜在的性能提升。多智能体强化学习（MARL）是一个研究领域，旨在为多个相互作用的智能体寻找最佳解决方案。本文旨在为自主驾驶领域的研究人员提供该领域的概述。其首先解释 MARL 并介绍重要概念。然后，讨论了 MARL 算法的核心范式，并概述每个范例中最先进的方法和思想。在此背景下，该研究综述了 MARL 在自主移动场景中的应用，并概述了现有场景和实现。

论文链接：https://arxiv.org/pdf/2203.07676.pdf

标题：基于通信的多智能体强化学习研究综述了解详情

简介：通信是协调多个代理行为的有效机制。在多智能体强化学习领域，智能体可以通过通信来提高整体学习性能并实现其目标。此外，代理可以通过特定渠道向所有代理或特定代理组传递各种类型的消息。随着 MARL 与通信 (Comm-MARL) 的研究工作不断增多，缺乏一种系统和结构化的方法来区分和分类现有的Comm-MARL系统。本文综述了最近的作品在COMM MARL领域，并考虑通信的各个方面，可以发挥作用的设计和开发的多Agent强化学习系统。考虑到这些方面，本文提出了可以分析、开发和比较Comm MARL系统的几个维度进行综述研究。

论文链接：https://arxiv.org/pdf/2203.08975.pdf