《强化学习周刊》第47期:MEDAL、RL4Rec、H-GRAIL& 非情景强化学习

No.47

智源社区

强化学习组

 习

4ba4be60770073555ada9054e076a81a.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

fc35d267f0980d8457565d12c908aa47.png

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

8d4a64430c41224c09767da0d59c81d5.png

ce6611f57618afff6cf1d8c33c769a47.png

2e33b0a4eb4720cce6a41a47035ea750.png

7cba9792c7ff8367d8ff43f9788bc6c9.png

dda4108d09b6819193608ffba8f73d1c.png

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第47期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

7ce3e3b1e0336239e84001c0c38ee420.png

0285a99e0940f4096b2cdd982ce78f28.png

5ab85cf616a1fd70a73102b36d245d5a.png

25f75ce24bdd3ff14dd1e9e07436213b.png

396909513336a28574586b7609e4a1d2.png

论文推荐

本次推荐了15篇强化学习领域的相关论文,我们介绍了安全强化学习应用于应急约束调度以提高计算效率、MARL有效应用于毫米波资源分配的新方法、通过控制多模半导体激光器中混沌行程的方法有效解决复杂机器学习任务、多智能体深度强化学习(MARL)应用于智能无线电资源管理、MEDAL训练反向策略以匹配提供的演示中的状态分布、多智能体强化学习中的新兴易货交易行为、最后介绍了新颖的的平滑的鲁棒策略梯度方法以获得全局最优等。

标题:Contingency-constrained economic dispatch with safe reinforcement learning(慕尼黑工业大学:Matthias Althoff | 具有安全强化学习的应急约束经济调度)了解详情

简介:未来的电力系统将严重依赖微电网,分散的可再生能源和储能系统占很大比例。此情况下的高度复杂性和不确定性可能使传统的电力调度策略不可行。基于强化学习 (RL) 的控制器可以应对这一挑战,但其本身不能提供安全保障,从而阻碍了它们在实践中的部署。为了克服此限制,本文提出了一个正式验证的 RL 控制器,用于经济调度。通过编码孤岛意外事件的时间相关约束来扩展传统约束。使用基于集合的向后可达性分析计算应急约束,并通过安全层验证 RL 智能体的动作。不安全动作被投射到安全动作空间中,同时利用受约束的 zonotope 集表示来提高计算效率。所提出的方法在使用实际测量的住宅用例中进行了演示。

论文链接:https://arxiv.org/pdf/2205.06212.pdf

标题:Mobility-Aware Resource Allocation for mmWave IAB Networks: A Multi-Agent RL Approach(米兰理工大学:Bibo Zhang and Ilario Filippini | mmWave-IAB网络的移动感知资源分配:一种多智能体 RL 方法)了解详情

简介:MmWaves被设想为提供 Gbps 无线接入的有前途的方向。然而,其容易受到高路径损耗和阻塞的影响,而定向天线只能部分缓解这些问题。集成接入和回程 (IAB) 架构已成为一种经济高效的网络密集化解决方案。毫米波 IAB 网络中的资源分配必须面临巨大的挑战,以应对繁重的时间动态。本文利用问题的分布式结构,提出了一个多智能体强化学习 (MARL) 框架,通过毫米波 IAB 网络中的流量路由和链路调度来优化用户吞吐量,该网络的特点是用户移动性和移动障碍物导致链路中断。该方法隐式捕获环境动态、协调干扰并管理 IAB 中继节点的缓冲区级别。考虑到全双工和半双工IAB节点,设计了不同的MARL部分。此外,在在线训练框架中为 RL 智能体提供了通信和协调方案,解决了实际系统的可行性问题。数值结果表明了该方法的有效性。

论文链接:https://arxiv.org/pdf/2205.06011.pdf

标题:Controlling chaotic itinerancy in laser dynamics for reinforcement learning(埼玉大学:Ryugo Iwami | 用于强化学习的激光动力学混沌轨迹控制)了解详情

简介:光子人工智能在加速机器学习方面引起了极大的兴趣;然而,其独特的光学性质尚未被充分利用以实现高阶功能。混沌巡游可以利用其在多个准吸引子之间的自发瞬态动力学来实现类似大脑的功能。本文提出了一种控制多模半导体激光器中混沌行程的方法来解决机器学习任务,即多臂bandit问题,这是强化学习的基础。该方法利用光注入控制模式竞争动力学中的超快混沌巡游运动。研究发现,这种搜索机制与传统的搜索算法完全不同,并具有高度可扩展性,其优于传统的大规模bandit问题搜索方法。本研究为利用混沌巡游作为光子硬件加速器有效解决复杂机器学习任务铺平了道路。

论文链接:https://arxiv.org/pdf/2205.05987.pdf

标题:Multi-agent Reinforcement Learning for Dynamic Resource Management in 6G in-X Subnetworks(华东师范大学:Xiao Du | 基于 6G in-X 子网中动态资源管理的多智能体强化学习)了解详情

简介:6G网络实现了子网范围的演进,形成了“子网网络”。然而子网内和子网间存在动态移动性,其数据传输不可避免地会相互干扰,这对无线资源管理提出巨大挑战。此外,现有的大多数研究都需要子网之间的瞬时信道增益,其往往很难收集。为此,本文提出了新的基于多智能体深度强化学习(MARL)的智能无线电资源管理方法,该方法只需要每个信道上的接收功率之和,即接收信号强度指示器(RSSI),而不需要信道增益。然而,直接将单个干扰与RSSI分离几乎是不可能的事情。为此,其进一步提出了GA Net,它集成了硬注意力层来模拟基于 RSSI 的子网间关系的重要性分布,并排除不相关子网的影响,并采用图注意力网络使用多头注意力层来精确特征并计算将影响个体吞吐量的权重。实验结果证明,该框架在各个方面都显著优于传统的和基于MARL的方法。

论文链接:https://arxiv.org/pdf/2205.05036.pdf

标题:A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning(斯坦福大学 : Archit Sharma | 非情景强化学习的状态分布匹配方法)了解详情

简介:虽然强化学习 (RL) 提供了一个通过反复试验进行学习的框架,但将 RL 算法转化为现实世界仍然具有挑战性。现实世界应用的主要障碍来自于在每次试验后重新设置环境的情景设置中的算法开发,这与人类和机器人等具体化代理所遇到的现实世界的连续性和非情景性形成对比。先前的研究考虑了一种交替方法,其中前向策略学习解决任务,反向策略学习重置环境,但反向策略应该将智能体重置为什么初始状态分布?假设访问了一些演示,其提出了MEDAL新方法,以训练反向策略以匹配提供的演示中的状态分布。这使智能体接近与任务相关的状态,允许前向策略混合容易和困难的起始状态。实验表明,MEDAL 在 EARL 基准测试的三个稀疏奖励连续控制任务上匹配或优于先前的方法,在最难的任务上获得 40% 的收益,同时做出的假设比之前的工作更少。

论文链接:https://arxiv.org/pdf/2205.05212.pdf

标题:State Encoders in Reinforcement Learning for Recommendation: A Reproducibility Study(阿姆斯特丹大学:Jin Huang | 推荐强化学习中的状态编码器:可重复性研究)了解详情

简介:推荐强化学习(RL4Rec)方法因能快速适应用户反馈而日益受到关注。典型的RL4Rec框架包括(1)一个状态编码器,用于对存储用户历史交互的状态进行编码;(2)一个RL方法,用于采取行动和观察奖励。现有的研究在基于真实世界记录的用户数据模拟用户反馈的环境中比较了四个状态编码器。基于注意力的状态编码器被认为是最佳选择,因为它达到了最优的性能。然而,这一发现仅限于actor-critic方法、四个状态编码器和评估模拟器,它们不会去偏向记录的用户数据。针对这些缺点,本文重现并扩展了现有的基于注意的状态编码器的比较(1)在公开的debiased RL4Rec SOFA模拟器中,与(2)不同的RL方法,(3)更多的状态编码器和(4)不同数据集的比较。重要的是,该实验结果表明,与更多的状态编码器相比,现有研究结果不能推广到从不同数据集和基于深度 Q 网络 (DQN) 的方法生成的debiased SOFA模拟器。

论文链接:https://arxiv.org/pdf/2205.04797.pdf

标题:Accounting for the Sequential Nature of States to Learn Features for Reinforcement Learning(金山大学:Steven James | 考虑状态的顺序性来学习强化学习的特征)了解详情

简介:本文研究了导致流行表征学习方法失败的数据属性。研究发现在状态没有明显重叠的环境中,变分自动编码器(VAE)无法学习有用的特征。其在一个简单的网格世界域中演示了这种失败,然后以度量学习的形式提供了解决方案。然而,度量学习需要以距离函数的形式进行监督,这在强化学习中是不存在的。为了克服这个问题,本文利用重播缓冲区中状态的顺序性质来近似距离度量,并在时间上接近的状态在语义上也相似的假设下提供弱监督信号。其修改了一个三重态丢失的VAE,并证明了在标准VAE失效的环境中,这种方法能够在没有额外监督的情况下学习下游任务的有用特性。

论文链接:https://arxiv.org/pdf/2205.06000.pdf

标题:Autonomous Open-Ended Learning of Tasks with Non-Stationary Interdependencies(西班牙科鲁纳大学: Alejandro Romero|非平稳相互依赖任务的自主开放学习)了解详情

简介:自主开放式学习是机器学习和机器人技术中的一种相关方法,它允许人工智能体的设计能够获得目标和运动技能,而无需用户分配任务。其关键问题是制定策略,以确保智能体在尽可能短的时间内尽可能多地完成任务。事实证明,内在动机会产生一种任务不可知的信号,在目标之间合理分配训练时间。现有研究在决策层面解决了关键问题(即构建策略以在目标之间正确选择),并提出了一种分层架构,将子任务选择视为马尔可夫决策过程,能够在内在生成动机的基础上正确学习相互依赖的技能。本文首先深化了对之前系统的分析,展示了在更高层次的体系结构(即目标选择)上整合任务之间关系信息的重要性。然后,介绍了H-GRAIL,其通过添加一个新的学习层来存储自主获取的任务序列,以便在相互依赖是非平稳的情况下修改它们。

论文链接:https://arxiv.org/pdf/2205.07562.pdf

标题:Reachability Constrained Reinforcement Learning(清华大学: Dongjie Yu & Haitong Ma|可达性约束强化学习)了解详情

简介:约束强化学习(CRL)近年来受到了广泛关注,因为满足安全约束对现实问题至关重要。然而,现有CRL方法通常缺乏严格的定义和安全保证。在安全控制研究中,安全被定义为持续满足一定的状态约束。这种持久安全性仅在状态空间的子集上才可能,称为可行集,其中给定环境存在一个最优的最大可行集。最新研究使用基于能量的方法将安全控制与CRL结合起来,例如控制屏障函数(CBF)、安全指数(SI)利用了可行集的先验保守估计,这会损害学习策略的性能。为此,本文提出了利用可达性分析来刻画最大可行集的可达性CRL(RCRL)。通过建立一致性条件来刻画可行集,学习安全值函数,并将其用作CRL中的约束条件。本文还利用多时间尺度随机逼近理论证明了该算法收敛到一个局部最优解,其中最大可行集是可以保证的。

论文链接:https://arxiv.org/pdf/2205.07536.pdf

标题:Bridging Sim2Real Gap Using Image Gradients for the Task of End-to-End Autonomous Driving(OLA电气: Unnikrishnan R Nair|在端到端自动驾驶任务中使用图像梯度弥合Sim2Real差距)了解详情

简介:本文是NeurIPS 2021 AWS Deepracer挑战赛一等奖解决方案。其任务是训练强化学习智能体(即自动驾驶汽车),该智能体通过与环境(模拟轨道)交互来学习驾驶,通过在给定状态下采取行动来最大化预期奖励。然后,该模型在真实赛道上用一辆小型AWS Deepracer赛车进行了测试。其目标是训练一个在不偏离跑道的情况下尽可能快地完成一圈的模型。此挑战最棘手的部分是所学技能的简单转移。为了减少观察空间中的域间距,除了剔除不必要的背景信息外,本文通过精明的边缘检测。将该问题建模为行为克隆任务,并使用MLP-MIXER进行运行时优化。通过仔细过滤训练数据,确保本文的模型能够处理控制噪声,该鲁棒模型能够在50%的命令被随机更改时完成跟踪。在现代CPU上,该模型的总体运行时间仅为2-3ms。

论文链接:https://arxiv.org/pdf/2205.07481.pdf

标题:Policy Gradient Method For Robust Reinforcement Learning(布法罗大学: Yue Wang|鲁棒强化学习的策略梯度法)了解详情

简介:本文首次提出具有全局最优性保证和复杂性分析的策略梯度方法,用于模型失配下的鲁棒强化学习。鲁棒强化学习是学习一种对模拟环境和真实环境之间的模型失配具有鲁棒性的策略。本文研究了鲁棒策略(次)梯度,它适用于任何可微参数策略类。并证明了所提出的鲁棒策略梯度方法在直接策略参数化下渐近收敛到全局最优。进而提出平滑的鲁棒策略梯度方法,证明了为了达到ϵ-全局最优,复杂度为O(\epsilon^{−3})。将本文的方法扩展到一般的无模型环境,并设计了具有可微参数策略类和值函数的鲁棒参与者-批评家方法。在表格设置下,本文进一步刻画了它的渐近收敛性和样本复杂性。最后,本文提供了仿真结果来证明本文的方法的鲁棒性。

论文链接:https://arxiv.org/pdf/2205.07344.pdf

标题:Reinforcement Learning for proactive operation of residential energy systems by learning stochastic occupant behavior and fluctuating solar energy: Balancing comfort, hygiene and energy use(EPFL:ICE|强化学习通过学习随机居住者行为和波动太阳能来主动运行住宅能源系统:平衡舒适度、卫生和能源使用)了解详情

简介:由于住宅建筑的随机参数,故难以准确地建模和预测。增加了开发可推广到不同建筑物的最优控制方法的复杂性。本研究提出了基于强化学习的无模型控制框架,该框架考虑了居住者的随机热水使用行为、太阳能发电、和天气条件,通过学习如何在太阳能辅助空间供暖和热水生产系统中平衡能源使用、居住者舒适度和水卫生。并提出了一种基于随机的离线训练过程,以在安全的模拟环境中为智能体提供先验体验,并在算法开始在真实房屋上进行在线学习时进一步确保居住者的舒适和健康。在瑞士不同地区的三个案例研究中对天气状况和热水使用行为进行了实验监测,并将收集到的数据用于模拟,以根据两种基于规则的方法评估所提出的控制框架。结果表明,所提出的框架可以实现 7% 到 60% 的节能。

论文链接:https://www.sciencedirect.com/science/article/pii/S0306261922005712#!

标题:Deep-attack over the deep reinforcement learning(西北工业大学: Yang Li|深度强化学习的深度攻击)了解详情

简介:最近对抗性攻击发展使强化学习更加脆弱,并且存在不同的方法来部署针对它的攻击,其关键是如何选择正确的攻击时机。有研究尝试设计一个攻击评估函数,以选择当值大于某个阈值时将被攻击的临界点。此类方法在不考虑长期影响的情况下很难找到部署攻击的正确位置。此外,攻击期间缺乏适当的评估指标。为了使攻击更加智能并解决现有问题,本文提出了基于强化学习的攻击框架,同时考虑了有效性和自发隐身性,并且还提出了新的指标来评估攻击模型在这两个方面的性能。研究表明了该模型的有效性和评估指标的优势。此外,本文还验证了模型的可迁移性,以及它在对抗训练下的鲁棒性。

论文链接:https://www.sciencedirect.com/science/article/pii/S0950705122004671#!

标题:Neurofeedback through the lens of reinforcement learning(特拉维夫大学: Nitzan Lubianiker|通过强化学习的视角进行神经反馈)了解详情

简介:尽管进行了数十年的实验和临床实践,但神经反馈 (NF) 训练背后的神经心理机制仍然模糊不清。NF 是强化学习 (RL) 任务的一种独特形式,在此期间,参与者会获得有关神经模式所需变化的奖励反馈。然而,在 NF 的背景下很少考虑关键的 RL 考虑因素——包括实践期间的选择、预测错误、信用分配问题或探索-利用权衡。本文为 NF 提供了一个基于 RL 的框架,描述了常见 NF 协议中不同的内部状态、动作和奖励,从而为表征、预测和加速学习过程提出了新的建议。通过这种方式,本文希望通过 NF 推进当前对神经调节的理解,并最终提高其有效性、个性化和临床实用性。

论文链接:https://www.sciencedirect.com/science/article/pii/S0166223622000595#!

标题:Renewable energy integration and microgrid energy trading using multi-agent deep reinforcement learning(基尔大学 : Daniel J.B. Harrold , Jun Cao , Zhong Fan|使用多智能体深度强化学习的可再生能源整合和微电网能源交易)了解详情

简介:为了减少全球温室气体排放,需最大限度地利用无碳可再生能源。本文将多智能体强化学习用于控制混合合作和竞争环境中的微电网。智能体观察波动的能源需求、动态的批发能源价格和间歇性可再生能源,以控制混合储能系统,降低电网的能源成本。此外,聚合器智能体与外部微电网进行交易,相互竞争,聚合器以减少自己的能源费用。深度确定性策略梯度 (DDPG) 算法和多智能体DDPG (MADDPG) 用于比较单个全局控制器与多个分布式智能体的使用,以及分布式 DDPG (D3PG) 和单智能体和多智能体变体双延迟DDPG (TD3)。研究发现,产生最大利润的方法是多智能体方法,其中每个智能体都有自己的奖励函数,基于博弈论的边际贡献原理。

论文链接:https://www.sciencedirect.com/science/article/pii/S0306261922005256#!

标题:Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning(DeepMind: Michael Bradley Johanson, Edward Hughes, Finbarr Timbers, Joel Z. Leibo|多智能体强化学习中的新兴易货交易行为)了解详情

简介:人工智能的进步通常源于新环境的发展。本文受初级微观经济学启发提供了一个环境。智能体学习在空间复杂的世界中生产资源,相互交易,并消费他们喜欢的资源。本文表明,新兴的生产、消费和定价行为会按照微观经济学中供需变化预测的方向对环境条件作出反应。本文还展示了智能体的商品紧急价格随空间变化的环境,反映了当地商品的丰富程度。价差出现后,一些智能体随后发现了在不同现行价格的地区之间运输货物的利基市场——这是一种有利可图的策略,因为其可以在便宜的地方购买商品,并在价格昂贵的地方出售商品。最后,本文研究了环境奖励、易货动作、智能体架构和消费可交易商品的能力如何帮助或抑制这种经济行为的出现。

论文链接:https://arxiv.org/pdf/2205.06760.pdf

c7ed17940187461f066aa24715453e70.png

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

67966f5565345e222221b729977dddb4.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值