《强化学习周刊》第53期:Depth-CUPRL、DistSPECTRL&Double Deep Q-Network

No.53

智源社区

强化学习组

 习

2ab52f45613452e2df0fd0222c502f5e.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

18f1a82f65b9516ca2b7d2874e05b9eb.png

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

84dee5ab54c2a358f1d2bc4c6a3470c4.jpeg

24ddcdc6950cef887f829514f46a93d8.jpeg

10e8d0d8b81b7d446b7372842c89c55e.jpeg

e8d5dcd4a1f54e03900e00836ede1a2b.jpeg

aeca613cf8a09a2a134d4f7a10e8aa99.jpeg

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第53期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及研究综述,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

f24f9457444176087f3e8048cd93c411.jpeg

087ee87875f1c71bd55c7021eea3c66d.jpeg

ab46142cb69d65a5444d4c3dd5bdb4c0.jpeg

be11c4909026ff48ada2f66d0a0fcd1f.jpeg

406eb2763a41edbe7981dec67e77fd7b.jpeg

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如基于深度强化学习的资源协调、多目标摄像机ISP框架&无人机控制应用、多智能体强化学习应用于星际争霸&机器维护预测及网络安全和强化学习相关的理论及其最新应用等。

本次推荐了15篇强化学习领域的相关论文,主要介绍了首次通过DRL方法解决动态多芯光纤弹性光网络(MCF-EON)中资源分配问题、提出了深度离线强化学习中隐式正则化的实证研究、基于DRL的摄像机ISP框架以最大化给定视觉任务特定的奖励函数、通过无模型深度 RL 算法学习的稳健策略来增强旋翼倾斜无人机标称控制器、基于稀疏奖励提高户外机器人导航系统的性能、基于 RL 的维护策略提高故障预防和停机时间、基于深度强化学习(DRL)的多智能体制造系统提高调度性能,最后通过强化学习学对入侵检测系统 (IDS)、入侵防御系统 (IPS)、物联网 (IoT) 和身份与访问管理 (IAM) 进行全面综述等。

标题:Resource Allocation in Multicore Elastic Optical Networks: A Deep Reinforcement Learning Approach(Pontificia Universidad: Juan Pinto-R´ıos| 多核弹性光网络中的资源分配:一种深度强化学习方法)了解详情

简介:首次应用深度强化学习方法来解决动态多芯光纤弹性光网络(MCF-EON)中的路由、调制、频谱和核心分配(RMSCA)问题。为此,本文设计并实现了与OpenAI的Gym兼容的新环境,以模拟MCF EONs的操作。新环境通过考虑网络状态和物理层相关方面来处理智能体动作(路由、核心和频谱时隙的选择)。后者包括可用的调制格式及其覆盖范围和核间串扰(XT),即MCF相关的损伤。如果生成的信号质量可接受,则环境会分配代理选择的资源。在处理智能体的动作后,环境被配置为向找半天提供数字奖励和有关新网络状态的信息。通过模拟将四种不同智能体的阻塞性能与MCF EON中使用的3种基线启发式进行了比较。从NSFNet和COST239网络拓扑的结果表明,性能最好的智能体平均可以将性能最好的基线启发式方法的阻塞概率降低四倍。

论文链接:https://arxiv.org/pdf/2207.02074.pdf

标题:An Empirical Study of Implicit Regularization in Deep Offline RL(DeepMind:Caglar Gulcehre | 深度离线强化学习中隐式正则化的实证研究)了解详情

简介:深度神经网络是离线强化学习中最常用的函数逼近器。先前的研究表明,使用 TD 学习和梯度下降训练的神经网络可以表现出隐式正则化,其特征在于这些网络的参数化不足。有效排名和性能之间的这种关联使得有效排名对离线 RL 具有吸引力,主要用于离线策略评估。本文对三个离线 RL 数据集:bsuite、Atari 和 DeepMind 实验室的有效排名和性能之间的关系进行了仔细的实证研究。其观察到直接关联仅存在于受限设置中,并在更广泛的超参数扫描中消失。此外,凭经验确定了三个学习阶段,这些阶段解释了隐式正则化对学习动态的影响,并发现单独的引导不足以解释有效排名的崩溃。最后表明其他几个因素可能会混淆有效排名和绩效之间的关系,并得出结论,在简单的假设下研究这种关联可能会产生高度误导。

论文链接:https://arxiv.org/pdf/2207.02099v2.pdf

标题:DRL-ISP: Multi-Objective Camera ISP with Deep Reinforcement Learning(CARAI:Ukcheol Shin | DRL-ISP:具有深度强化学习的多目标摄像机ISP)了解详情

简介:本文提出了一个多目标摄像机ISP框架,该框架利用深度强化学习(DRL)和摄像机ISP工具箱,该工具箱由基于网络的和传统的ISP工具组成。提出的基于DRL的摄像机ISP框架从工具箱中迭代选择合适的工具,并将其应用于图像,以最大化给定视觉任务特定的奖励函数。为此,其总共实现了51个ISP工具,包括曝光校正、颜色和色调校正、白平衡、锐化、去噪等。并且提出了一种高效的DRL网络架构,可以提取图像的各个方面,并在图像和大量动作之间建立刚性映射关系。通过提出的基于DRL的ISP框架有效地提高了每个视觉任务的图像质量,例如从原始图像到RGB图像的恢复、二维目标检测和单目深度估计。

论文链接:https://arxiv.org/pdf/2207.03081.pdf

标题:Retro-RL: Reinforcing Nominal Controller With Deep Reinforcement Learning for Tilting-Rotor Drones(KAIST:Hyun Myung | Retro-RL:通过深度强化学习增强倾斜旋翼无人机的标称控制器)了解详情

简介:将无人机应用扩展到复杂任务的研究需要稳定的控制框架。最近,深度强化学习(RL)算法已被用于机器人控制以完成复杂任务的许多研究中然而,深度 RL 算法可能不适合直接部署到现实世界的机器人平台中,因为难以解释学习到的策略并且缺乏稳定性保证,尤其是对于爬墙无人机等复杂任务。本文提出了新颖的混合架构,该架构通过使用无模型深度 RL 算法学习的稳健策略来增强标称控制器。所提出的架构采用了不确定性感知控制混合器来保证标称控制器的稳定性,同时使用学习策略的扩展鲁棒性能。该策略在具有数千个域随机化的模拟环境中进行训练,以在各种不确定性下实现稳健的性能。通过实际实验验证了所提出方法的性能,然后与传统控制器和使用 vanilla deep RL 算法训练的基于学习的最先进控制器进行了比较。

论文链接:https://arxiv.org/pdf/2207.03124.pdf

标题:Robust optimal well control using an adaptive multi-grid reinforcement learning framework(赫瑞瓦特大学:Atish Dixit | 基于自适应多网格强化学习框架的鲁棒最优井控)了解详情

简介:强化学习是一种很有前景的工具,用于解决模型参数高度不确定、系统在实践中部分可观测的鲁棒最优井控问题。然而,鲁棒控制策略的RL通常依赖于执行大量仿真。对于计算密集型模拟的情况,这很容易变得难以计算。为此,受迭代数值算法中使用的几何多重网格方法原理的启发,引入了一种自适应多重网格RL框架。RL控制策略最初是通过使用底层偏微分方程(PDE)的粗网格离散化进行计算高效的低保真度仿真来学习的。随后,模拟保真度以自适应方式提高到最高保真度模拟,该模拟对应于模型域的最佳离散化。该框架使用最先进的、基于无模型策略的RL算法,即近端策略优化(PPO)算法进行了演示。结果显示了从SPE-10模型2基准案例研究中获得的鲁棒最优井控问题的两个案例研究。使用该框架,计算效率显著提高,节省了单个精细网格对应物60-70%的计算成本。

论文链接:https://arxiv.org/pdf/2207.03253.pdf

标题:Vessel-following model for inland waterways based on deep reinforcement learning(TU Dresden:Fabian Harta | 基于深度强化学习的内河船舶跟航模型)了解详情

简介:虽然深度强化学习(RL)在过去几年中越来越多地应用于设计跟驰模型,但本研究旨在研究基于深度强化学习的车辆跟驰在复杂车辆动力学和强环境干扰下的可行性。作为一个用例,本文提出了基于真实船舶动力学的内河航道船舶跟踪模型,该模型考虑了环境影响,例如变化的流速和河流剖面。并从匿名AIS数据中提取自然船舶行为,以制定一个奖励函数,该函数反映了舒适和安全导航旁边的真实驾驶风格。为了提高泛化能力,又提出了一种RL训练环境,该环境使用随机过程来建模引导轨迹和河流动力学。为了验证训练模型,又定义了训练中未看到的不同场景,包括在莱茵河中部的真实船只跟随。该模型演示了在所有场景中安全舒适的驾驶,证明了良好的泛化能力。此外,通过将训练后的模型部署在一系列后续船舶上,可以有效地抑制交通波动。

论文链接:https://arxiv.org/pdf/2207.03257.pdf

标题:gym-DSSAT: a crop model turned into a Reinforcement Learning environment(Universit´e de Lille:Philippe Preux | gym DSSAT:将crop模型转变为强化学习环境)了解详情

简介:使用强化学习 (RL) 解决现实世界的顺序决策问题通常从使用模拟真实条件的模拟环境开始。本文为现实的作物管理任务提出了一种新颖的开源 RL 环境。gym-DSSAT 是农业技术转让决策支持系统 (DSSAT) 的gym接口,DSSAT 是一种高保真作物模拟器。DSSAT 已经发展了 30 多年,并得到农学家的广泛认可。gym-DSSAT 带有基于现实世界玉米实验的预定义模拟。该环境与任何gym环境一样易于使用。通过使用基本的 RL 算法提供性能基线。并且简要概述了用 Fortran 编写的单片 DSSAT 模拟器是如何变成 Python RL 环境的。该方法是通用的,以应用于类似的模拟器。该研究报告了非常初步的实验结果,结果表明 RL 可以帮助研究人员提高施肥和灌溉实践的可持续性。

论文链接:https://arxiv.org/pdf/2207.03270.pdf

标题:Tackling Real-World Autonomous Driving using Deep Reinforcement Learning(巴尔马大学: Paolo Maramotti|使用深度强化学习解决真实世界的自主驾驶问题)了解详情

简介:在典型的自主驾驶技术中,规划和控制系统代表了两个最关键的组件,其中传感器检索的数据和感知算法处理的数据用于实现安全舒适的自动驾驶行为。本文提出了一种无模型深度强化学习规划器,用于训练神经网络,预测加速度和转向角,从而获得一个能够使用由定位和感知算法处理的数据驱动车辆的单个模块。其经过充分模拟训练的系统能够在模拟巴尔马市的真实城区的无障碍环境中平稳安全地驾驶,证明了该系统具有良好的泛化能力,也可以在训练场景以外的部分驾驶。此外,为了将系统部署在真实的自动驾驶汽车上,并减少模拟和真实性能之间的差距,还提出一个由微型神经网络表示的模块,该模块能够在模拟训练期间再现真实的汽车动态行为。

论文链接:https://arxiv.org/pdf/2207.02162.pdf

标题:The StarCraft Multi-Agent Challenges+ : Learning of Multi-Stage Tasks and Environmental Factors without Precise Reward Functions(KAIST AI: Mingyu Kim|星际争霸多智能体挑战+:在没有精确奖励函数的情况下学习多阶段任务)了解详情

简介:本文提出了一个星际争霸多智能体挑战+的新基准,其中智能体学习执行多阶段任务并使用环境因素而无需精确的奖励函数。先前的挑战(SMAC)被认为是多智能体强化学习的标准基准,主要涉及确保所有智能体仅通过具有明显奖励功能的精细操作来协同消除接近的对手。此挑战对 MARL 算法的探索能力感兴趣,以有效地学习隐式多阶段任务和环境因素以及微控制。该研究涵盖了进攻和防御场景。进攻场景中,智能体必须学会首先找到对手然后消灭他们。防御场景需要代理使用地形特征。并研究了 SMAC+ 下的 MARL 算法,并观察到最近的方法在与之前的挑战类似的环境中运行良好,但在攻击性场景中表现不佳。此外,研究观察到增强的探索方法对性能有积极影响,但不能完全解决所有场景。

论文链接:https://arxiv.org/pdf/2207.02007.pdf

标题:VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning(剑桥大学: Matteo Bettini|VMAS:用于集体机器人学习的矢量化多智能体模拟器)了解详情

简介:虽然许多多机器人协调问题可以通过精确算法得到最佳解决,但解决方案通常无法在机器人数量上进行扩展。多智能体强化学习(MARL)作为解决此类问题的有前途的解决方案,在机器人界越来越受到关注。本文介绍了矢量化多智能体模拟器(VMAS)。VMAS 是为高效 MARL 基准测试而设计的开源框架。它由用 PyTorch 编写的矢量化 2D 物理引擎和一组十二个具有挑战性的多机器人场景组成。其他场景可以通过一个简单的模块化接口来实现。将 VMAS 与 OpenAI MPE 进行比较时, MPE 的执行时间随着模拟数量线性增加,而 VMAS 能够在 10 秒内执行 30,000 次并行模拟,速度提高了 100 倍以上。VMAS 的场景以正交方式证明对最先进的 MARL 算法具有挑战性。

论文链接:https://arxiv.org/pdf/2207.03530.pdf

标题:HTRON:Efficient Outdoor Navigation with Sparse Rewards via Heavy Tailed Adaptive Reinforce Algorithm(马里兰大学: Kasun Weerakoon|HTRON:通过重尾自适应强化算法实现稀疏奖励的高效户外导航)了解详情

简介:本文提出新方法来提高基于深度强化学习 (DRL) 的户外机器人导航系统的性能。现有的 DRL 方法都基于精心设计的密集奖励函数,以学习环境中的有效行为。本文通过仅使用稀疏奖励(易于设计)来规避这个问题,并提出新的用于户外导航的自适应重尾强化算法,称为 HTRON。HTRON的主要思想是利用重尾策略参数化,这隐含地诱导智能体在稀疏奖励设置中的探索。通过三种不同的户外场景中评估了 HTRON 针对 Reinforce、PPO 和 TRPO 算法的性能。与其他方法获得的导航策略相比,HTRON观察到成功率平均增加了 34.41%,达到目标所需的平均时间步长减少了 15.15%,海拔成本减少了 24.9%。此外,本文证明HTRON可以直接转移到 Clearpath Husky 机器人中,以在现实世界场景中执行户外地形导航。

论文链接:https://arxiv.org/pdf/2207.03694.pdf

标题:Multi-agent deep reinforcement learning based Predictive Maintenance on parallel machines(University of Luxembourg: Marcelo Luis Ruiz Rodríguez |基于多智能体深度强化学习的并行机器预测维护)了解详情

简介:预测性维护 (PdM),必须仔细检查几个考虑因素。首先,需要有足够数量的生产机器和相关故障数据来生成维护预测。其次,需要采用正确的维护方法,强化学习 (RL) 被认为是该方面的关键技术,因为它具有通过试验和错误进行交互来学习的内在能力。本文提出了新的多智能体方法,该方法在多台机器故障的不确定性下学习技术人员执行的维护策略。这种方法包括 RL 智能体,它们部分观察每台机器的状态,以协调维护调度中的决策,从而将维护任务动态分配给一组机器上的技术人员(具有不同技能)。实验评估表明,本文基于 RL 的维护策略在故障预防和停机时间方面优于传统维护策略(包括纠正性和预防性维护策略),提高了 ≈75%整体表现。

论文链接:https://www.sciencedirect.com/science/article/pii/S0736584522000928

标题:Multimodal feature fusion and exploitation with dual learning and reinforcement learning for recipe generation(山东大学: Mengyang Zhang | 多模态特征融合和利用双重学习和强化学习用于食谱生成)了解详情

简介:食谱属于具有烹饪逻辑的长段落。由于图像和文本之间的差距,从图像和食物名称到食谱在 VQA(视觉问答)中更具挑战性。尽管多模态特征融合作为 VQA 中的典型求解器,在大多数情况下都被采用以提高准确性,但通过该方式获得的融合特征很难为保持生成文本中的逻辑提供指导。本文引入成分以增强食物图像和食谱之间的关系,因为它们可以在很大程度上反映烹饪逻辑,并采用对偶学习通过从生产的食谱中重构成分来提供补充视图。为了充分利用成分来生产有效的食谱,在正向流中通过注意力机制将成分融合成图像和食物名称,在反向流中,重构器旨在重现食谱中的成分。大量的实验表明,更多的注意力被分配到产生有效的配方上,烧蚀研究表明了所提出方法中不同成分的合理性。

论文链接:https://www.sciencedirect.com/science/article/pii/S1568494622004781

标题:Dynamic job shop scheduling based on deep reinforcement learning for multi-agent manufacturing systems(南京航空航天大学: Yi Zhang | 基于深度强化学习的多智能体制造系统动态作业车间调度)了解详情

简介:个性化订单给生产范式带来挑战,迫切需要车间的动态响应能力和自调整能力。本文提出了基于深度强化学习(DRL)的多智能体制造系统,其集成了自组织机制和自学习策略。首先,将车间内的制造设备构建为设备智能体,在边缘计算节点的支持下,应用改进的合同网络协议(CNP)引导多个智能体之间的合作与竞争,高效完成个性化订单。其次,采用多层感知器在设备智能体内部建立称为AI调度器的决策模块。AI调度器根据感知到的车间状态信息,智能生成最优生产策略,进行任务分配。然后,通过近端策略优化(PPO)算法对AI调度器进行周期性训练和更新,以提高其决策性能。最后,在实验中考虑了诸如随机作业插入和不可预测的机器故障等动态事件。实验结果表明,该方法能够获得满足各种性能指标的调度解决方案,以及高效、自主地处理资源或任务干扰。

论文链接:https://www.sciencedirect.com/science/article/pii/S0736584522000977

标题:Data-Driven Inverse Reinforcement Learning Control for Linear Multiplayer Games(UTA: Bosen Lian | 线性多人游戏的数据驱动逆强化学习控制)了解详情

简介:本文提出了数据驱动的逆强化学习(RL)控制算法,用于线性连续时间微分动力系统中的非零和多人游戏。首先提出了基于模型的逆强化学习策略迭代框架,该框架具有:1)使用李雅普诺夫函数重构成本矩阵的策略评估步骤;2)使用逆最优控制(IOC)的状态奖励权重改进步骤;3) 使用最优控制的策略改进步骤。本文在基于模型的策略迭代算法的基础上,提出了在线数据驱动的离线策略逆RL算法,无需任何系统动力学知识或专家控制增益。提供了算法的严格收敛和稳定性分析。研究表明,离线策略逆 RL 算法保证了无偏解,同时添加了探测噪声以满足激励持续性 (PE) 条件。最后,两个不同的仿真例子验证了所提出算法的有效性。

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9815022

06da2795b7c0e39078ecf32b5d5d69f6.jpeg

1a6d365b08fd99c20a3b1eb5b72944da.jpeg

9faceb0075b0293ac7d6ea649a5d58c0.jpeg

fd6052420b8ebb6602de30dfe8e3ba0b.jpeg

6bb6542a3f7adbc34984cd3538aa41c2.jpeg

研究综述

标题:Cyber-security and reinforcement learning — A brief survey( IBM: Amrin Maria Khan Adawadkar | 网络安全和强化学习——简要综述)了解详情

简介:本文对入侵检测系统 (IDS)、入侵防御系统 (IPS)、物联网 (IoT) 和身份与访问管理 (IAM) 中使用的强化学习 (RL) 技术进行了全面综述。从 Science Direct、ACM、IEEEXplore 和 Springer 数据库中提取的 2010 年至 2021 年的期刊和文章等科学文献。2020 年和 2021 年发表的大多数关于网络安全和 RL 的研究文章都是针对 IDS 分类器和物联网中的资源优化的。用于训练基于 RL 的 IDS 算法的一些数据集是 NSL-KDD、CICIDS 和 AWID。IAM 的数据集和出版物很少。现有的少数专注于物理层身份验证。然而,目前的技术水平缺乏标准的评估标准,已经确定了检测率、精度和准确度等参数,可用于比较采用 RL 的算法。本文适合想要了解该领域并确定问题领域的 RL 领域的新研究人员、学生和初学者。

论文链接:https://www.sciencedirect.com/science/article/pii/S0952197622002512#!

22763f9402f0df65d5bfe60fab9c6e11.jpeg

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

b3196a648310fda37f90276499424f98.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值