《强化学习周刊》第41期：MERLIN、分散式多智能体强化学习、异步强化学习

智源社区

于 2022-04-06 19:02:46 发布

阅读量1.4k

点赞数

文章标签：算法大数据机器学习人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247521226&idx=3&sn=16cbfcdfe8bb4adda25d37790cb6a685&chksm=febcd00ec9cb59188e59c1664dd9aeff553076c4aaabb1d234415ed98290d285355adfb5fab3&scene=126&&sessionid=0

版权

No.41

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：

方式1：扫描下面二维码，进入《强化学习周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第41期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如分布式强化学习、分散式多智能体强化学习、基于深度强化学习的博弈策略及无人机应用、度量强化学习相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文，主要涉及于MERLIN -- 使用强化学习规避恶意软件、用于离线强化学习的Belman残差正交化、基于深度强化学习的物联网瞬态数据缓存策略、基于深度强化学习的物联网瞬态数据缓存策略、一种解决当日送达问题的分散式多智能体强化学习方法、将Sim-to-Real 转化为多智能体强化学习策略用于自动驾驶、通过多层稀疏编码和非凸正则化修改进行双稀疏深度强化学习、基于深度强化学习的微分博弈追逃策略、用于离散和连续动作任务的动作候选驱动裁剪双 Q 学习、使用异步优势参与者-批评者方法在日内市场上进行统计套利交易、一类不确定非严格反馈非线性系统的NN自适应最优跟踪控制、基于深度强化学习的虚拟环境视觉对象跟踪 DQN 智能体算法、未知物体操作的触觉姿势估计和策略学习、基于深度强化学习的无人机自主避障与目标跟踪等。

标题：MERLIN -- Malware Evasion with Reinforcement LearnINg（MERLIN -- 使用强化学习规避恶意软件）了解详情

简介：除了基于特征码和启发式的检测技术外，机器学习（ML）还被广泛用于推广新的前所未有的恶意软件（malware）。然而，已经证明 ML 模型可以通过欺骗分类器返回不正确的标签来欺骗。这些研究通常依赖于对基于梯度的攻击很脆弱的预测分数。在更现实的情况下，攻击者几乎没有关于恶意软件检测引擎输出的信息，因此可以实现适度的规避率。本文提出了使用强化学习与DQN和加强算法来挑战两个国家的最先进的机器学习为基础的检测引擎（MalConv \& EMBER）和被 Gartner 列为 2021 年领导者的商业 AV 的方法。通过状态方法结合了几个操作来修改Windows Portable Execution（PE）文件，而不破坏其功能。该方法还可以确定哪些操作的性能更好，并编写详细的漏洞报告，以帮助缓解规避。研究表明，即使在提供信息较少的商业AV上，Enhanced也能获得很好的逃逸率。

论文链接：https://arxiv.org/pdf/2203.12980.pdf

标题：Bellman Residual Orthogonalization for Offline Reinforcement Learning（用于离线强化学习的Belman残差正交化）了解详情

简介：本文引入了一种新的强化学习原理，该原理通过在用户定义的测试函数空间中增强Bellman方程的有效性来近似Bellman方程。其专注于利用函数近似对自由离线RL建模的应用上，利用这一原理推导出非策略评估的置信区间，以及在规定的策略类内优化过策略。根据策略优化过程中证明了一个oracle不等式，即任意比较器策略的值和不确定性之间的权衡。测试函数空间的不同选择允许在一个共同的框架内处理不同的问题。使用该方法描述了从策略上数据转移到策略外数据时的效率损失，并建立了与过去工作中研究的集中系数的联系。通过深入研究了线性函数逼近方法的实现，并提供了多项式时间实现的理论保证，即使Bellman闭包不成立。

论文链接：https://arxiv.org/pdf/2203.12786.pdf

标题：Asynchronous Reinforcement Learning for Real-Time Control of Physical Robots（用于物理机器人实时控制的异步强化学习）了解详情

简介：现实世界强化学习的一个经常被忽视的挑战是，当智能体进行学习更新时，现实世界不会暂停。由于标准模拟环境没有解决学习的实时性问题，大多数RL 算法实现按顺序处理环境交互和学习更新。当在现实世界中部署此类实现时，其显着延迟的观察做出决策，而不会做出响应。已经提出异步学习来解决这个问题，但是没有使用真实环境对顺序和异步强化学习进行系统比较。本文使用机械臂设置了两个基于视觉的任务，实现了一个扩展先前架构的异步学习系统，并比较不同动作周期时间、感官数据维度和小批量大小的顺序和异步强化学习。研究表明当学习更新的时间成本增加时，顺序实现中的动作周期时间可能会增长过长，而异步实现始终可以保持适当的动作周期时间。因此，当学习更新成本高昂时，顺序学习的性能会下降，并且在很大程度上优于异步学习。该系统在两小时的经验中实时学习以达到和跟踪像素的视觉目标，并直接使用真正的机器人进行学习，完全从头开始学习。

论文链接：https://arxiv.org/pdf/2203.12759.pdf

标题：A Deep Reinforcement Learning-Based Caching Strategy for IoT Networks with Transient Data（基于深度强化学习的物联网瞬态数据缓存策略）了解详情

简介：物联网（IoT）在过去几年不断崛起，其潜力现在更加明显。然而，瞬态数据生成和有限的能源资源是这些网络的主要瓶颈。此外，最小延迟和其他常规服务质量测量仍然是需要满足的有效要求。高效的缓存策略可以帮助满足标准的服务质量要求，同时绕过物联网网络的特定限制。采用深度强化学习 (DRL) 算法使可以开发有效的缓存方案，而无需任何先验知识或上下文信息。本文提出了一种基于 DRL 的缓存方案，可以提高缓存命中率并降低物联网网络的能耗，同时，考虑到物联网数据的数据新鲜度和有限的生命周期。为了更好地捕捉区域不同的流行度分布，其提出了一种分层架构来在物联网网络中部署边缘缓存节点。综合实验结果表明，该方法在物联网网络的缓存命中率和能耗方面优于众所周知的传统缓存策略和现有的基于 DRL 的解决方案。

论文链接：https://arxiv.org/pdf/2203.12674.pdf

标题：A Decentralised Multi-Agent Reinforcement Learning Approach for the Same-Day Delivery Problem（一种解决当日送达问题的分散式多智能体强化学习方法）了解详情

简介：近年来，当日送达服务越来越受欢迎。现有的研究通常将其建模为一类动态车辆路径问题（DVRP），即货物必须在下订单的同一天从仓库交付给一组客户。DVRPs的自适应精确解方法即使在小问题的情况下也会变得棘手。本文将SDDP描述为马尔可夫决策过程（MDP），并使用一个参数共享的深度Q网络对其进行求解，该网络对应于一种分散的多智能体强化学习（MARL）方法。为此，其创建了基于多代理网格的SDD环境，包括多辆车、一个中央仓库和动态订单生成。通过比较MARL方法和混合编程（MIP）解决方案的性能。结果表明，MARL框架执行与MIP为基础的策略时，订单数量相对较低。对于高阶到达率的问题实例，MARL方法的性能比MIP低30%。当采用特定于区域的参数时，两种方法之间的性能差距变小。对于有30份订单的5x5电网方案，差距从30%降至3%。并且MARL方法平均比基于MIP的策略快65倍，因此对于实时控制可能更有利，至少对于小规模的实例是如此。

论文链接：https://arxiv.org/ftp/arxiv/papers/2203/2203.11658.pdf

标题：Transferring Multi-Agent Reinforcement Learning Policies for Autonomous Driving using Sim-to-Real（将Sim-to-Real 转化为多智能体强化学习策略用于自动驾驶）了解详情

简介：自动驾驶要求智能体之间高度协调和协作。在多智能体系统中实现有效的协调是一项艰巨的任务，在很大程度上尚未解决。多智能体强化学习考虑了智能体之间的交互并且还允许分散训练——这使得它具有高度可扩展性。然而，将策略从模拟转移到现实世界是巨大的挑战，即使对于单智能体应用也是如此。由于智能体协作和环境同步，多代理系统增加了Sim-to-Real差距的复杂性。本文提出了将多智能体自主驾驶策略转移到现实世界的方法。其创建了一个多智能体环境，模拟Duckietown多机器人试验台的动态，并使用不同级别的域随机化MAPPO算法训练多智能体策略。然后，将经过训练的策略转移到Duckietown测试平台，并将MAPPO算法与传统的基于规则的方法进行比较。研究发现，使用MAPPO和域随机化的转移策略的回报平均是基于规则的方法的1.85倍。此外，研究还表明，不同级别的参数随机化对 Sim-to-Real 差距有重大影响。

论文链接：https://arxiv.org/pdf/2203.11653.pdf

标题：Double Sparse Deep Reinforcement Learning via Multilayer Sparse Coding and Nonconvex Regularized Pruning（通过多层稀疏编码和非凸正则化修改进行双稀疏深度强化学习）了解详情

简介：高度依赖于数据表示的深度强化学习 (DRL) 在许多实际决策问题中显示出其潜力。然而，DRL中获取表示的过程很容易受到模型干扰的影响，而且会留下不必要的参数，导致控制性能下降。本文通过多层稀疏编码和非凸正则化修改提出了一种双稀疏 DRL。为了减轻 DRL 中的干扰，本文提出了一种多层稀疏编码结构网络，以获得深度稀疏表示以用于强化学习中的控制。此外，本文采用非凸正则化器来促进强稀疏性，通过基于正则化器的修改方案有效地去除不必要的权重。因此，开发了一种双稀疏 DRL 算法，它不仅可以学习深度稀疏表示以减少干扰，还可以在保持鲁棒性能的同时去除冗余权重。实验结果表明，所提出的具有多层稀疏编码结构的深度稀疏表示的方法在控制方面优于现有的基于稀疏编码的 DRL。

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9740040

标题：Pursuit and Evasion Strategy of a Differential Game Based on Deep Reinforcement Learning（基于深度强化学习的微分博弈追逃策略）了解详情

简介：作为深度神经网络（DNN）和强化学习的结合，深度强化学习 (DRL) 成为解决微分博弈问题的新范式。本文建立了一个强化学习环境，并将相关的 DRL 方法应用于特定的仿生微分博弈问题：狗羊博弈。狗羊游戏环境设置在狗追逐试图逃跑的羊的圆圈上。根据一些假设，本文可以得到运动学的追逃策略。本研究将基于价值的深度Q网络（DQN）模型和深度确定性策略梯度（DDPG）模型应用于狗羊游戏，试图赋予羊成功逃脱的能力。同时本研究提出了具有超时策略的奖励机制和具有绵羊转向角衰减机制的游戏环境。这些修改有效地增加了羊逃跑的概率。结果表明，DQN 模型的修改有效地将逃逸概率提高到与 DDPG 模型相同的水平。

论文链接：https://www.frontiersin.org/articles/10.3389/fbioe.2022.827408/full

标题：Action Candidate Driven Clipped Double Q-learning for Discrete and Continuous Action Tasks（用于离散和连续动作任务的动作候选驱动裁剪双 Q 学习）了解详情

简介：限幅双 Q 学习作为双 Q 学习的一种有效变体，采用限幅双估计器来逼近最大预期动作值。由于限幅双估计器的低估偏差，限幅双 Q 学习的性能在某些随机环境中可能会下降。为了减少低估偏差，本文提出了一种基于动作候选的裁剪双估计器。具体来说，首先从一组估计器中选择一组具有高动作值的精英动作候选者。然后，在这些候选者中，从另一组估计器中选择价值最高的动作。最后，使用第二组估计器中的最大值来裁剪第一组估计器中所选动作的动作值，并且裁剪值用于逼近最大预期动作值。从理论上讲，裁剪的双 Q 学习中的低估偏差随着候选动作数量的减少而单调衰减。此外，候选行动的数量控制着高估和低估偏差之间的权衡。本文还通过逼近精英连续动作候选者，将裁剪的双 Q 学习扩展到连续动作任务。

论文链接：https://arxiv.org/pdf/2203.11526.pdf

标题：Statistical arbitrage trading on the intraday market using the asynchronous advantage actor–critic method（使用异步优势参与者-批评者方法在日内市场上进行统计套利交易）了解详情

简介：本文关注统计套利交易机会，包括持续利用日内交易期间产生的价格差异，并可选择在平衡市场平仓。本文研究的目标是最大化自主交易策略的回报风险比。为了找到最佳交易策略，本文建议利用异步优势参与者-评论家 (A3C) 算法，这是一种深度强化学习方法，具有双头共享深度神经网络的函数逼近器。通过限制最大允许仓位来实施风险受限的交易策略，并进行状态工程和选择过程。本文引入了一种新颖的奖励函数和基于目标的探索，即行为克隆。本研究通过使用荷兰市场区域可用的欧洲单一日内耦合市场 (SIDC) 的限价订单案例研究来评估，测试集上的大多数小时产品都返回了利润。

论文链接：https://www.sciencedirect.com/science/article/pii/S0306261922003348

标题：NN Adaptive Optimal Tracking Control for a Class of Uncertain Nonstrict Feedback Nonlinear Systems（一类不确定非严格反馈非线性系统的NN自适应最优跟踪控制）了解详情

简介：本文针对一类动态不确定的非线性非严格反馈系统，提出了一种新的基于强化学习的自适应最优控制器，以获得所需的跟踪性能。主要特点是所提出的控制方案可以处理传统的基于强化学习的算法无法处理的控制问题。为实现高阶系统的最优控制，采用强化学习方法对系统的虚拟和实际控制进行优化。径向基函数神经网络分别用于逼近不确定的系统动力学、最优成本函数和最优控制律。根据李雅普诺夫稳定性定理，证明了闭环系统中的所有误差信号都是半全局一致最终有界（SGUUB），同时可以获得理想的跟踪控制性能。仿真结果说明了所提算法的有效性。

论文链接：https://www.sciencedirect.com/science/article/pii/S0925231222003423

标题：Deep Reinforcement Learning-Based DQN Agent Algorithm for Visual Object Tracking in a Virtual Environmental Simulation（基于深度强化学习的虚拟环境视觉对象跟踪 DQN 智能体算法）了解详情

简介：硬件应用程序中对象跟踪模型的复杂性已成为在各种不确定的环境跟踪条件下使用多功能算法技能完成的一项更需要完成的任务。本文的目标是通过DQN深度强化学习模型进行虚拟环境模拟的实验，提出一个全新的目标跟踪框架。本文提出的网络使用深度强化学习模型检查环境，以调节虚拟仿真环境中的活动，并使用来自真实VCE（虚拟城市环境）模型的序列图片作为输入。随后，使用多个序列训练图像集对深度强化网络模型进行预训练，并在运行时跟踪过程中对其适应性进行微调。实验结果在速度和准确性方面都非常出色。该测试实验在两个公共数据集VisDrone 2019和OTB-100上进行，并且在比较的传统方法中取得了更好的性能。

论文链接：

https://www.mdpi.com/2076-3417/12/7/3220/pdf

标题：Tactile Pose Estimation and Policy Learning for Unknown Object Manipulation（未知物体操作的触觉姿势估计和策略学习）了解详情

简介：对象姿态估计方法允许在非结构化环境中找到对象的位置。这是自主机器人操作非常需要的技能，因为机器人需要估计物体的精确姿势才能操作它们。本文研究了类别级对象的触觉姿势估计和操纵问题。提出的方法使用带有学习触觉观察模型和确定性运动模型的贝叶斯滤波器。之后，使用深度强化学习训练策略，其中智能体使用来自贝叶斯滤波器的信念估计。本文提出的模型经过模拟训练并转移到现实世界，通过一系列模拟和真实世界的实验来分析框架的可靠性和性能，并将提出的方法与基线工作进行比较。结果表明，学习到的触觉观察模型可以分别以 2 毫米和 1 度的分辨率定位新物体的位置和方向。此外，本文对一个开瓶任务进行了实验，其中夹具需要达到所需的抓取状态。

论文链接：

https://arxiv.org/pdf/2203.10685.pdf

标题：Autonomous Obstacle Avoidance and Target Tracking of UAV Based on Deep Reinforcement Learning（基于深度强化学习的无人机自主避障与目标跟踪）了解详情

简介：在使用深度强化学习算法完成无人机自主避障和目标跟踪任务时，往往会存在收敛速度慢、成功率低等问题。因此，本文提出了一种新的深度强化学习算法，即Multiple Pools Twin Delay Deep Deterministic Policy Gradient（MPTD3）算法。首先，将无人机的状态空间和动作空间建立为连续模型，比离散模型更接近工程实践。然后，设计了多个经验池机制和梯度截断，以提高算法的收敛性。此外，通过赋予无人机环境感知能力，获得算法的泛化能力。实验结果验证了所提方法的有效性。

论文链接：https://link.springer.com/article/10.1007/s10846-022-01601-8

研究综述

标题：ORNL-度量强化学习稳定性、鲁棒性和弹性的指标综述了解详情

简介：近年来，强化学习受到了广泛关注，这主要是由于深度强化学习在解决许多挑战性任务（如下棋、围棋和在线电脑游戏）方面取得了成功。然而，随着强化学习越来越受到重视，游戏和模拟环境之外的应用需要了解强化学习方法的鲁棒性、稳定性和弹性。为此，本文进行了全面的文献综述，以描述这三种行为与强化学习相关的现有文献。通过对用于指示或测量稳健性、稳定性和弹性行为的定量和理论方法进行分类。并且确定了定量方法试图稳定、稳健或有弹性的行动或事件。最后，其提供了一个决策树，用于选择量化行为的指标。本文相信这是首次全面综述专门针对强化学习的稳定性、鲁棒性和弹性的研究。

论文链接：

https://arxiv.org/ftp/arxiv/papers/2203/2203.12048.pdf