《强化学习周刊》第48期：DA3-X、DVORL、PBRL & PW-DDPG

智源社区

于 2022-06-09 18:00:09 发布

阅读量874

点赞数

文章标签：算法大数据编程语言 python 机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247526052&idx=2&sn=d99c53ee655ad00c427b94bfbc91b583&chksm=febc2560c9cbac761374085fb8a39f68edae770c315b91a00b4982418263c5999beb7b57cf8f&scene=126&&sessionid=0

版权

本周刊汇总了强化学习领域的最新论文，涉及分布式多智能体强化学习、离线强化学习的数据评估、注意力机制、生物启发学习规则等多个方向。论文探讨了如何通过新方法提高智能体的适应能力、决策协调、策略性能和可迁移性。此外，还介绍了用于路径规划和跟踪的算法，以及基于强化学习的通信协调和安全学习策略。这些研究为强化学习的理论和应用提供了新的视角和工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

No.48

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第48期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及新工具，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如分布式多智能体强化学习、可解释性强化学习、离线强化学习的数据评估、安全强化学习相关的理论及其最新应用等。

本次推荐了13篇强化学习领域的相关论文，我们介绍了生物智能作为新规则以提高强化学习性能、降噪技术及注意力结合以分析分布式强化学习的决策及协调、离线强化学习（DVORL）的数据评估以提高离线强化学习算法学习的策略的性能和可迁移性、多模式协同多目标粒子群优化路径规划算法提高无人机路径规划、首个样本高效算法：具有一般函数逼近的基于乐观模型的 PbRL 算法、基于学习奖励衡量新颖性设计内在奖励以提高样本效率、惩罚近似策略优化（P3O）算法解决繁琐的约束策略迭代及一种用于单智能体可解释强化学习的最新方法等。

标题：Reinforcement Learning with Brain-Inspired Modulation can Improve Adaptation to Environmental Changes（莱斯布里奇大学 : Eric Chalmers | 具有脑启发调节的强化学习以提高对环境变化的适应能力）了解详情

简介：强化学习 (RL) 的发展使算法能够在高度复杂但主要是静态的问题中取得令人印象深刻的性能。相比之下，生物学习似乎更重视适应不断变化的世界效率。本文以最近提出的神经元学习规则为基础，该规则假设每个神经元都可以通过预测自己的未来活动来优化其能量平衡。该假设导致神经元学习规则使用突触前输入来调节预测误差。类似的 RL 规则将使用动作概率来调节奖励预测误差。这种调节使智能体对负面体验更加敏感，并且在形成偏好时更加谨慎。通过将提出的规则嵌入到表格和深度 Q 网络 RL 算法中，并发现它在简单但高度动态的任务中优于传统算法。此外新规则包含了生物智能的核心原则；允许算法以类似人类的方式适应变化的重要组成部分。

论文链接：https://arxiv.org/pdf/2205.09729.pdf

标题：Distributed Multi-Agent Deep Reinforcement Learning for Robust Coordination against Noise（早稻田大学 : Yoshinari Motokawa | 用于对抗噪声鲁棒协调的分布式多智能体深度强化学习）了解详情

简介：在多智能体系统中，降噪技术对于提高整个系统的可靠性非常重要，因为智能体需要依赖有限的环境信息来与周围的智能体进行合作和协调。然而，现有的研究通常采用集中式降噪方法来构建多智能体环境中的鲁棒性和通用性协调，而分布式和分散式自治智能体更适合于实际应用。本文提出了一个多智能体系统（DA3-X）的分布式注意行为体体系结构模型，利用该模型证明了具有DA3-X的智能体可以选择性地学习噪声环境并进行协作。通过比较使用和不使用DA3-X的学习方法，对DA3-X的有效性进行了实验评估，结果表明，使用DA3-X的代理可以获得比基线代理更好的性能。此外，将DA3-X中注意力权重的热图可视化，以分析决策过程和协调行为如何受到噪声的影响。

论文链接：https://arxiv.org/pdf/2205.09705.pdf

标题：Beyond Greedy Search: Tracking by Multi-Agent Reinforcement Learning-based Beam Search（安徽大学：Jin Tang | 超越贪婪搜索：基于多智能体强化学习的束搜索跟踪）了解详情

简介：现有跟踪器通常会选择一个位置或方案，并将其作为每帧的跟踪结果。然而，这种贪婪的搜索方案可能不是最佳选择，尤其是在遇到诸如严重遮挡和快速运动等具有挑战性的跟踪场景时。由于累积的错误会使响应分数不再可靠。本文提出了基于多智能体强化学习的波束搜索策略（称为BeamTracking）来解决这个问题。将跟踪描述为由多个并行决策过程完成的样本选择问题，每个并行决策过程的目的是在每一帧中挑选一个样本作为其跟踪结果。将目标特征、提议特征及其响应分数作为状态，并考虑附近智能体预测的动作，训练多智能体来选择自己的动作。当所有帧进行处理后，会选择累积得分最大的轨迹作为跟踪结果。在七个流行的跟踪基准数据集上进行的大量实验验证了该算法的有效性。

论文链接：https://arxiv.org/pdf/2205.09676.pdf

标题：Data Valuation for Offline Reinforcement Learning（L3S 研究中心：Amir Abolfazli, Gregory Palmer & Daniel Kudenko | 离线强化学习的数据评估）了解详情

简介：深度强化学习 (DRL) 的成功取决于训练数据的可用性，这通常是通过大量环境交互获得的。随着数据市场的出现，内部构建数据集的替代方法是购买外部数据。然而，虽然最先进的离线强化学习方法已经显示出很大的前景，但它们目前依赖于精心构建的数据集，这些数据集与预期的目标域很好地对齐。这引发了关于在外部获取的数据上训练的离线强化学习代理的可迁移性和鲁棒性的问题。本文经验性地评估了当前最先进的离线强化学习方法在两个 MuJoCo 环境中应对源-目标域不匹配的能力，发现当前最先进的离线强化学习方法算法在目标域中表现不佳。为了解决此问题，其提出了离线强化学习（DVORL）的数据评估，它允许能够识别相关和高质量的转换，以提高离线强化学习算法学习的策略的性能和可迁移性。结果表明，该方法在两个 MuJoCo 环境中优于离线强化学习基线。

论文链接：https://arxiv.org/pdf/2205.09550.pdf

标题：Parallel bandit architecture based on laser chaos for reinforcement learning（东京大学:Takashi Urushibara | 基于激光混沌的强化学习并行bandit结构）了解详情

简介：通过光子学加速人工智能是活跃的研究领域，旨在利用光子的独特特性。强化学习是机器学习的重要分支，光子决策原理已经在多臂bandit问题上得到证明。然而，强化学习可能涉及大量状态，这与之前展示的bandit问题不同，后者的状态数量只有一个。本文组织了用于多状态强化学习的新架构，作为bandit问题的并行阵列，以便从光子决策者中受益，将其称为强化学习的并行赌博机架构或 PBRL。以cart-pole平衡问题为例，证明了 PBRL 在比 Q-learning 更少的时间步长内适应环境。此外，与激光混沌中固有的自相关提供积极影响的均匀分布的伪随机数相比，PBRL 在使用混沌激光时间序列时产生更快的适应。研究还发现，系统在学习阶段经历的各种状态在 PBRL 和 Q 学习之间表现出完全不同的特性。通过本研究获得的见解也有利于现有计算平台，而不仅仅是光子实现，通过PBRL算法和相关随机序列加速性能。

论文链接：https://arxiv.org/pdf/2205.09543.pdf

标题：Multicast Scheduling for Multi-Message over Multi-Channel: A Permutation-based Wolpertinger Deep Reinforcement Learning Method（香港中文大学:Ran Li | 多通道多消息多播调度：一种基于置换的Wolpertinger 深度强化学习方法）了解详情

简介：多播是一种将公共消息从基站（BS）同时传输给多个移动用户（MU）的有效技术。将多信道多消息组播调度问题描述为一个具有大离散动作空间和多个时变约束的无限时域马尔可夫决策过程（MDP），该问题共同最小化了基站的能量消耗和服务来自MUs的异步请求的延迟，这在现有研究中未得到有效的解决。通过研究该MDP在平稳策略下的内在特征和改进奖励函数，首先将其简化为具有更小状态空间的等价形式。然后，提出了改进的深度强化学习（DRL）算法，即基于置换的Wolpertinger深度确定性策略梯度（PW-DDPG），以解决简化问题，PW-DDPG利用基于置换的动作嵌入模块来解决大型离散动作空间问题，并利用可行探索模块来处理时变约束。此外，作为基准，通过求解整数规划问题，导出了所考虑的MDP的上界。数值结果验证了该算法的性能接近于推导的基准。

论文链接：https://arxiv.org/pdf/2205.095420.pdf

标题：Multi-objective particle swarm optimization with multi-mode collaboration based on reinforcement learning for path planning of unmanned air vehicles（北京工业大学：北京人工智能研究院|基于强化学习的多模式协同多目标粒子群优化无人机路径规划）了解详情

简介：针对复杂环境下无人机协同航迹规划问题，将其建模为一个具有多重约束的功能最佳化问题。将约束条件作为目标函数，将多无人机的约束路径规划转化为多目标最佳化问题，提出了基于多模式协同的多目标粒子群优化路径规划算法(MCMOPSO-RL) ，该算法在寻找最优路径的同时处理约束条件。该算法采用强化学习算法来选择合适的位置更新模式，以获得较高的性能。提出了基于粒子位置更新的多模式协作策略，设计了三种模式来平衡种群多样性和收敛速度，包括探索和开发模式，以及混合更新模式。实验结果表明，该算法生成的帕累托解集的质量高于其他比较算法，这意味着该算法能够更有效地解决单无人机和多无人机的路径规划问题。

论文链接：https://www.sciencedirect.com/science/article/pii/S0950705122005299#!

标题：Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation（北京大学: Xiaoyu Chen|Human-in-the-loop：具有一般函数逼近的可证明有效的基于偏好的强化学习）了解详情

简介：本文研究具有轨迹偏好的human-in-the-loop强化学习 (RL)，其中智能体不会在每一步接收数字奖励，而是仅从人类监督者那里接收对轨迹对的偏好。智能体的目标是学习人类监督者最喜欢的最优策略。但对基于偏好的强化学习（PbRL）的理论理解仅限于表格案例。本文首次提出具有一般函数逼近的基于乐观模型的 PbRL 算法，该算法使用价值目标回归估计模型，并通过解决乐观规划问题来计算探索性策略。本文的下限表明此算法在专门用于线性设置时接近最优。此外，本文通过制定新的问题来扩展 PbRL 问题，称为 RL 与 n-wise 比较，并为这个新设置提供首个样本高效算法。本文是具有（一般）函数逼近的 PbRL 的第一个理论结果。

论文链接：https://arxiv.org/pdf/2205.11140.pdf

标题：Data-Efficient Off-Policy Learning for Distributed Optimal Tracking Control of HMAS With Unidentified Exosystem Dynamics（北京理工大学: Yong Xu|具有未知外系统动力学的 HMAS 分布式最优跟踪控制的数据高效离线策略学习）了解详情

简介：本文提出了一种数据高效的离线策略强化学习 (RL) 方法，用于使用近似动态规划 (ADP) 对异构多智能体系统 (HMAS) 进行分布式输出跟踪控制。与外系统的运动学模型可寻址到部分或所有智能体的现有结果不同，本文假设外系统的动力学对于所有智能体都是完全未知的。为了解决这个难题，为智能体设计了使用经验重放方法的可识别算法，以识别新参考模型的系统矩阵。然后提出了一种基于输出的分布式自适应输出观察器来提供领导者的估计。此外，给出了一种数据高效的 RL 算法来离线设计最优控制器以及系统轨迹，而无需求解输出调节器方程。开发了一种 ADP 方法，利用在线状态信息和在线输入迭代求解博弈代数 Riccati 方程 (GARE)，从而放宽了对先验知识的要求。最后通过数值算例验证了理论分析的有效性。

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9779315

标题：A survey for deep reinforcement learning in markovian cyber-physical systems: Common problems and solutions（东北大学（美国）: Timothy Rupprecht, Yanzhi Wang|马尔可夫网络物理系统中的深度强化学习研究：常见问题和解决方案）了解详情

简介：深度强化学习 (DRL) 越来越多地应用于自动化任务的信息物理系统。重要的是记录 DRL 应用的发展趋势，以帮助研究人员使用通用解决方案克服常见问题。本文研究了两种应用环境中的趋势：运动控制任务和资源分配任务。常见问题包括动作空间或状态空间的难处理性，以及与现实世界中训练系统的高昂成本相关的障碍。真实世界的训练数据稀疏且难得，在真实世界中训练可能会损坏其学习系统。其提供了一套通用的解决方案解决棘手的问题，已经成功地通过人为设置奖励函数、辅助学习以及在向更复杂的系统执行迁移学习之前简化状态或动作空间来指导网络训练。许多算法使用多智能体或分层学习来减少状态或动作空间的难处理性。训练成本过高的常见解决方案包括使用基准和模拟。这需要模拟和现实世界共有的共享特征空间。

论文链接：https://www.sciencedirect.com/science/article/pii/S0893608022001873#!

标题：Coordinating Policies Among Multiple Agents via an Intelligent Communication Channel（Mila - Quebec 人工智能研究所: Dianbo Liu|通过智能通信渠道协调多个智能体之间的策略）了解详情

简介：在多智能体强化学习 (MARL) 中，通常会引入允许智能体直接相互交流的专用通道。本文提出了一种替代方法，即智能体通过智能协调者进行交流，该协调者学会筛选和解释所有智能体提供的信号，以提高智能体的集体表现。为了确保该协调者不会成为集中控制者，会激励智能体减少对它所传达的信息的依赖，并且这些信息只能影响从固定集合中选择策略，而不是给定策略的即时动作。本文在几个协作 MARL 环境中展示了该架构相对于现有基线的强度。

论文链接：https://arxiv.org/pdf/2205.10607.pdf

标题：Trust-based Consensus in Multi-Agent Reinforcement Learning Systems（伦敦大学: Ho Long Fung|多智能体强化学习系统中基于信任的一致性）了解详情

简介：多智能体强化学习（MARL）经常被忽视的问题是，环境中可能存在不可靠的智能体，其偏离预期的行为会阻止系统完成预期的任务。尤其是，一致性是协作分布式多智能体系统的一个基本基础问题。共识要求位于分散通信网络中的不同智能体达成一致。基于学习的智能体应该采用一种协议，允许在系统中有一个或多个不可靠的智能体的情况下达成共识。本文以共识为例，研究了MARL中的不可靠智能体问题。与分布式系统文献中已建立的结果相呼应，实验表明，即使是这种智能体的一小部分，也会极大地影响在网络环境中达成共识的能力。本文提出了基于强化学习的可信共识（RLTC）---分散的信任机制，在该机制中，智能体可以独立决定与哪些相邻通信。经验表明，本文的信任机制能够有效地处理不可靠的智能体，更高的共识成功率证明了这一点。

论文链接：https://arxiv.org/pdf/2205.12880.pdf

标题：MAVIPER: Learning Decision Tree Policies for Interpretable Multi-Agent Reinforcement Learning（卡内基梅隆大学: Stephanie Milani|MAVIPER：可解释多智能体强化学习的学习决策树策略）了解详情

简介：最近在多智能体强化学习 (MARL) 方面的许多突破都需要使用深度神经网络，这对专家解释和理解具有挑战性。并且可解释强化学习的现有工作已显示出在提取更多可解释的基于决策树的策略方面的前景，但仅限于单智能体设置。为此，本文提出了第一组可解释的 MARL 算法，这些算法从使用 MARL 训练的神经网络中提取决策树策略。首个算法 IVIPER 将 VIPER扩展到多智能体设置。本文证明 IVIPER 可以为每个智能体学习高质量的决策树策略。此外，本文提出了新颖的集中式决策树训练算法 MAVIPER。MAVIPER 通过使用其预期树预测其他智能体的行为来共同生长每个智能体的树，并使用重采样来关注与其他智能体交互的状态。

论文链接：https://arxiv.org/pdf/2205.12449.pdf

标题：Reward Uncertainty for Exploration in Preference-based Reinforcement Learning（加州大学: Xinran Liang|基于偏好的强化学习中探索的奖励不确定性）了解详情

简介：将复杂的目标传达给强化学习 (RL) 智能体通常需要细致的奖励工程。基于偏好的 RL 方法能够通过积极地结合人类反馈来学习基于人类偏好的更灵活的奖励模型。然而，当前基于偏好的 RL 算法中，反馈效率低仍然是一个问题，因为定制人工反馈非常复杂。现有方法主要集中在改进查询选择和策略初始化上。本文提出了专门针对基于偏好的 RL 算法的探索方法。通过基于学习奖励衡量新颖性来设计内在奖励。利用学习奖励模型集合中的分歧。学习奖励模型中的分歧反映了量身定制的人类反馈的不确定性，并且可能对探索有用。实验表明，学习奖励的不确定性带来的探索奖励提高了基于偏好的 RL 算法在 MetaWorld 基准中任务的反馈和样本效率。

论文链接：https://arxiv.org/pdf/2205.12401.pdf

标题：Penalized Proximal Policy Optimization for Safe Reinforcement Learning（清华大学: Linrui zhang|安全强化学习的惩罚性近端策略优化）了解详情

简介：安全强化学习的目的是在满足安全约束的同时学习最优策略，这在实际应用中是必不可少的。然而，当前的算法仍然难以在硬约束满足的情况下实现有效的策略更新。本文提出了惩罚近似策略优化（P3O）算法，它通过一个等价的无约束问题的最小化来解决繁琐的约束策略迭代。具体来说，P3O利用一个简单而有效的惩罚函数来消除成本约束，并通过裁剪智能体目标来消除信任域约束。通过有限惩罚因子从理论上证明了该方法的正确性，并对样本轨迹上的近似误差进行了最坏情况分析。此外，本文将P3O扩展到更具挑战性的多约束和多智能体场景，这些场景在以前的工作中研究较少。大量实验表明，对于一组受约束的机车任务，P3O在奖励改善和约束满足方面都优于最先进的算法。

论文链接：https://arxiv.org/pdf/2205.11814.pdf