《强化学习周刊》第45期:6GAN、SAAC、COptiDICE & CCLF

No.45

智源社区

强化学习组

 习

80f143eaa373e02c6ad183b99dbc2df2.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

4ce47ed14e52e6cb727df6638f851d75.png

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

542a04a1900a0860905c966033c11982.png

120ef3f78dfcec8272b4a53f8e758aec.png

3c393a71564dccce1c80143fdc1dea72.png

1dfbd2552f17cbe92f5ac5c6709aabc4.png

f637457a07db7d2227ebd03ba20df32c.png

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第45期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

2d64dc182ad915ab8f0cf833c0490748.png

7de751fcbdebfb6150aa04f21704c425.png

b3cbf7d41fe12e5c427c159ef3544298.png

1fb1df188b6df48da431290c2d1a1906.png

e871411a85627db40c648fad67440150.png

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如非策略强化学习、基于深度强化学习的供应链应用、多智能体强化学习相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文,我们介绍了非策略强化学习高斯混合批评方法、 6GAN: 基于强化学习生成对抗网络、逆强化学习的分层贝叶斯方法、SAAC:安全强化学习的对抗游戏、COptiDICE:离线约束强化学习、CCLF:新颖的强化学习框架、自适应交通信号控制、非马尔可夫决策过程中PAC强化学习及MARL在混合电厂的高效应用等。

标题:Revisiting Gaussian mixture critic in off-policy reinforcement learning: a sample-based approach(DeepMind:Bobak Shahriari, Abbas Abdolmaleki | 非策略强化学习中的高斯混合批评:基于样本的方法)了解详情

简介:在许多具有挑战性的控制任务中,使用分配策略评估的参与者批评算法经常被证明优于非分配算法。然而,这两个智能体都依赖C51批评家进行价值评估。C51方法的主要缺点是,它需要事先了解策略可以达到的最小值和最大值,以及使用的箱子数量,这就固定了分布估计的分辨率。虽然DeepMind control任务套件利用了标准化的奖励和事件长度,因此可以通过这些超参数的单一设置来解决整个套件,但情况往往并非如此。本文提出了消除这一要求的自然替代方案,即高斯混合,以及简单的基于样本的损失函数,用于在非政策制度下对其进行训练。通过对其在广泛的连续控制任务中的性能进行了经验评估,并证明其消除了对这些分布超参数的需要,并在各种具有挑战性的任务(例如,仿人、狗、四足动物和操纵器领域)中实现了最先进的性能。最后,在Acme智能体库进行实现。

论文链接:https://arxiv.org/pdf/2204.10256.pdf

标题:6GAN: IPv6 Multi-Pattern Target Generation via Generative Adversarial Nets with Reinforcement Learning(中科院苟高鹏团队 | 6GAN: IPv6多模式目标生成(通过强化学习生成对抗网络))了解详情

简介:由于网络速度和计算能力有限,全球 IPv6 扫描一直是研究人员面临的挑战。最近提出的目标生成算法,通过预测要扫描的候选集来克服 Internet 评估的问题。然而,IPv6 自定义地址配置出现了多种寻址模式,阻碍了算法推断。广泛的 IPv6 别名也可能误导算法发现别名区域而不是有效的主机目标。本文介绍了 6GAN,一种使用生成对抗网络 (GAN) 和强化学习构建的用于多模式目标生成的新型架构。6GAN 强制多个生成器使用多类鉴别器和别名检测器进行训练,以生成具有不同寻址模式类型的非别名活动目标。鉴别器和别名检测器的奖励有助于监督地址序列决策过程。经过对抗训练,6GAN 的生成器对每个模式都保持了很强的模仿能力,6GAN 的判别器获得了出色的模式判别能力,准确率为 0.966。实验表明,该研究通过达到更高质量的候选集而优于最先进的目标生成算法。

论文链接:https://arxiv.org/pdf/2204.09839.pdf

标题:Deep Reinforcement Learning for a Two-Echelon Supply Chain with Seasonal Demand(米兰比可卡大学:Francesco Stranieri | 具有季节性需求的两级供应链的深度强化学习)了解详情

简介:本文利用强化学习和深度学习的最新发展来解决供应链库存管理问题,这是一个复杂的顺序决策问题,包括确定在给定时间范围内生产和运送到不同仓库的最佳产品数量。给出了随机两级供应链环境的数学表达式,允许管理任意数量的仓库和产品类型。此外,提出了一个与深度强化学习算法接口的开源库,并将其公开用于解决库存管理问题。通过对综合生成的数据进行丰富的数值实验,比较了最先进的深度强化学习算法所取得的性能。设计并实施了实验计划,包括供应链的不同结构、拓扑、需求、能力和成本。结果表明,PPO算法能够很好地适应环境的不同特点。VPG算法几乎总是收敛到局部最大值,即使它通常达到可接受的性能水平。数值实验表明,深度强化学习的表现始终优于标准的库存管理策略,如静态(s,Q)-策略。因此,它可以被认为是解决随机两级供应链问题的一个实用而有效的选择。

论文链接:https://arxiv.org/pdf/2204.09603.pdf

标题:A Hierarchical Bayesian Approach to Inverse Reinforcement Learning with Symbolic Reward Machines(波士顿大学:Weichao Zhou  | 基于符号奖赏机制的逆强化学习的分层贝叶斯方法)了解详情

简介:在强化学习(RL)问题中,错误指定的奖励会降低样本效率并导致不期望的行为。本文提出了符号奖励机制,用于在指定奖励信号时结合高级任务知识。符号奖励机通过允许转换携带谓词和符号奖励输出来扩充现有的奖励机形式。这种形式很适合反向强化学习,其中的关键挑战是确定一些专家演示中符号值的适当分配。其提出了一种分层贝叶斯方法来推断最可能的分配,以便具体化的奖励机制可以高精度地将专家演示的轨迹与其他轨迹区分开来。实验结果表明,学习的奖励机制可以显著提高复杂RL任务的训练效率,并在不同任务环境配置下具有良好的通用性。

论文链接:https://arxiv.org/pdf/2204.09772.pdf

标题:SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics(斯坦福大学:Yannis Flet-Berliac | SAAC:安全强化学习作为演员-评论家的对抗游戏)了解详情

简介:尽管强化学习(RL)对不确定性条件下的连续决策问题有效,但它仍然无法在风险或安全是约束约束的现实世界系统中蓬勃发展。本文将具有安全约束的RL问题描述为一个非零和博弈。虽然使用最大熵RL部署,但该公式会产生安全的对抗引导软参与者批评框架,称为SAAC。其对手的旨在打破安全约束,而RL智能体的目标是在对手的策略下最大化约束价值函数。对智能体价值函数的安全约束只表现为代理人和对手策略之间的排斥项。与先前方法不同,SAAC可以解决不同的安全标准,如安全勘探、均值-方差风险敏感性和类似CVaR的一致性风险敏感性。举例说明了对手针对这些约束的设计。并在每一种变体中,展示了智能体除了学习解决任务之外,还将自己与对手的不安全行为区分开来。最后,对于具有挑战性的连续控制任务,我研究表明了SAAC比风险规避分布RL和风险中性软参与者批评算法收敛更快、效率更高,且在满足安全约束方面的失败次数更少。

论文链接:https://arxiv.org/pdf/2204.09424.pdf

标题:COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation(KAIST:Jongmin Lee &DeepMind:Cosmin Paduraru | COptiDICE:通过平稳分布校正估计的离线约束强化学习)了解详情

简介:本文考虑离线约束强化学习(RL)问题,其中智能体的目的是计算一个最大化预期收益的策略,同时满足给定的成本约束,只从预先收集的数据集学习。这种问题设置在许多现实场景中都很有吸引力,在这些场景中,与环境的直接交互代价高昂或存在风险,并且由此产生的策略应符合安全约束。然而,由于非策略评估本身具有估计误差,因此计算保证满足离线RL设置中的成本约束的策略具有挑战性。本文提出了一种离线约束的RL算法,该算法在平稳分布空间中优化策略。该算法COptiDICE在约束成本上界的同时,直接估计最优策略相对于收益的平稳分布修正,目的是产生一个成本保守的策略,以满足实际约束。实验结果表明,COptiDICE在约束满足和收益最大化方面获得了更好的策略,优于基线算法。

论文链接:https://arxiv.org/pdf/2204.08957.pdf

标题:CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning(阿里巴巴&南洋理工大学:Chenyu Sun | CCLF:一个对比好奇心驱动的强化学习框架)了解详情

简介:在强化学习(RL)中,直接从高维观测中学习是一项挑战,最近的研究表明,数据增强可以通过编码原始像素的不变性来弥补这一点。然而从经验上,并非所有样本都同等重要,因此简单地注入更多的增强输入可能会导致Q学习的不稳定性。本文通过开发一个模型不可知的对比好奇心驱动学习框架(CCLF)系统地研究了这个问题,该框架可以充分利用样本的重要性,并以自我监督的方式提高学习效率。CCLF能够对体验重放进行优先级排序,选择信息量最大的增强输入,更重要的是将Q函数和编码器规范化,以便更专注于学习不足的数据。此外,它还鼓励代理以好奇心为基础进行探索。因此,智能体可以专注于更多信息样本,并更有效地学习表示不变性,同时显著减少了增强输入。与其他最先进的方法相比,本文的方法展示了优越的样本效率和学习性能。

论文链接:https://arxiv.org/pdf/2205.00943.pdf

标题:TinyLight: Adaptive Traffic Signal Control on Devices with Extremely Limited Resources(浙大:Dong Xing|TinyLight:资源极其有限的设备上的自适应交通信号控制)了解详情

简介:深度强化学习(DRL)的最新进展极大地提高了自适应交通信号控制(ATSC)的性能。然而,关于实现,大多数工作在存储和计算方面都很麻烦。这阻碍了它们在资源有限的情况下的部署。在这项工作中,作者提出了TinyLight,其为首次基于DRL的ATSC模型,专为资源极其有限的设备设计。TinyLight首先构造一个超级图,将一组丰富的候选特征与一组加权较轻的网络块相关联。然后,为了减少模型的资源消耗,使用一个新的熵最小化目标函数自动去除超级图中的边。这使得TinyLight能够在一个只有2KB RAM和32KB ROM的独立微控制器上工作。本文评估了TinyLight在多个道路网络上的实际交通需求。实验表明,即使资源极其有限,TinyLight仍能获得具有竞争力的性能。

论文链接:https://arxiv.org/pdf/2205.00427.pdf

标题:ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically Simulated Characters(加州大学&NVIDIA:Xue Bin Peng | ASE:用于物理模拟角色的大规模可重用对抗性技能嵌入)了解详情

简介:通过多年的实践和经验,人类展示了令人难以置信的运动技能,这些技能不仅使人类能够执行复杂的任务,还为指导他们学习新任务时的行为提供了强大的先验知识。这与基于物理的角色动画中的常见做法形成了鲜明对比,在基于物理的角色动画中,控制策略通常是针对每个任务从头开始训练的。本文提出了大规模的数据驱动框架,用于学习物理模拟角色的通用和可重用的技能嵌入。并结合了来自对抗性模仿学习和无监督强化学习的技术,开发出能够产生逼真行为的技能嵌入,同时还提供了易于控制的表示,用于新的下游任务。该模型可以使用非结构化运动剪辑的大型数据集进行训练,而无需对运动数据进行任何特定于任务的注释或分割。通过利用基于GPU的大规模并行模拟器,能够使用超过十年的模拟经验来培训技能嵌入,使模型能够学习到丰富且多功能的技能。

论文链接:https://arxiv.org/pdf/2205.01906.pdf

标题:Markov Abstractions for PAC Reinforcement Learning in Non-Markov Decision Processes(罗马大学:Alessandro Ronca | 非马尔可夫决策过程中PAC强化学习的马尔可夫抽象)了解详情

简介:本文的工作旨在开发不依赖马尔可夫假设的强化学习算法。其考虑一类非马尔可夫决策过程,其中历史可以抽象为一组有限的状态,同时保持动态。作者称之为马尔可夫抽象,因为它在编码非马尔可夫动态的一组状态上诱导了马尔可夫决策过程。这种现象是最近引入的规则决策过程(以及只有有限个信念状态可到达的POMDP)的基础。在所有此类决策过程中,使用马尔可夫抽象的代理可以依赖马尔可夫属性来实现最佳行为。本文证明了马尔可夫抽象可以在强化学习中学习。对于这两项任务,可以使用满足某些基本要求的任何算法。作者证明了当所采用的算法具有PAC保证时,本文的方法具有PAC保证,并且还提供了一个实验评估。

论文链接:https://arxiv.org/pdf/2205.01053.pdf

标题:Multi-agent deep reinforcement learning for efficient multi-timescale bidding of a hybrid power plant in day-ahead and real-time markets(UTFSM :Tomás Ochoa | 多智能体深度强化学习用于在日前和实时市场中对混合电厂进行高效的多时间尺度投标)了解详情

简介:本研究涉及通过提供能源和辅助服务 (AS) 产品参与多时间尺度电力市场的有效投标。能源管理系统 (EMS) 通过在日前和实时市场中有效投标,最大限度地提高工厂的利润。EMS 的投标决策通常来自传统的数学优化框架。然而,由于此问题多阶段随机程序,解决困难并且遭受维度灾难的问题。并提出了新颖的多智能体深度强化学习 (MADRL) 框架,用于高效的多时间尺度投标。两个基于具有循环层的多视图人工神经网络 (MVANN) 的智能体被调整以将环境观察映射到动作。此类映射使用与电力市场产品、投标决策、太阳能发电、储能和在两个电力市场投标的时间表示相关的可用信息作为输入。具有有限时间范围的共享累积奖励函数用于在学习阶段同时调整两个 MVANN 的权重。

论文链接:https://www.sciencedirect.com/science/article/pii/S0306261922004603#!

标题:Partial Consistency for Stabilizing Undiscounted Reinforcement Learning(清华大学:Haichuan Gao | 稳定无折扣强化学习的部分一致性)了解详情

简介:无折扣奖励是强化学习(RL)中的一个重要设置,它表征了许多现实问题。然而,优化无折扣奖励往往会导致训练不稳定。现有研究尚未深入分析这种不稳定问题的原因。本文从价值评估的角度对这一问题进行了分析。分析结果表明,这种不稳定性源于不一致选择的动作引起的瞬态陷阱。然而,在同一个状态选择一个一致的行动会限制探索。为了平衡探索有效性和训练稳定性,提出了一种新的采样方法,称为最后访问采样(LVS),以确保在相同状态下一致地选择部分动作。LVS方法将状态动作值分解为两部分,即最后一次访问(LV)值和重新访问值。分解确保LV值由一致选择的动作确定。本文证明了LVS方法可以消除瞬态陷阱,同时保持最优性。

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9762369

标题:Fully Decentralized Multiagent Communication via Causal Inference(南京大学:Han Wang | 基于因果推理的完全分散多智能体通信)了解详情

简介:现实中的许多任务都可以转化为多智能体(MA)强化学习问题,该领域的大多数算法都遵循集中学习和分散执行的框架。然而,在许多情况下,实施集中学习是不切实际的。因为它需要整合来自智能体的信息,而由于隐私问题,智能体可能不希望共享本地信息。因此,本文提出了一种新的方法,通过强化学习实现基于多个智能体之间通信的完全分散学习。得益于因果关系分析,智能体会选择对他人交流信息影响最大的反事实。本文发现,这种方法可以应用于经典或复杂的MA场景,以及目前备受关注的联合学习领域。

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9761961

标题:Multistep Multiagent Reinforcement Learning for Optimal Energy Schedule Strategy of Charging Stations in Smart Grid(西安交大:Yang Zhang | 多步多智能体强化学习用于智能电网充电站最优能量调度策略)了解详情

简介:充电站的高效能源调度策略对于稳定电力市场和满足电动汽车(EV)的充电需求至关重要。现有的能源调度策略研究大多未能协调能源采购和分配过程,从而无法平衡能源供需。此外,在复杂场景中存在多个充电站,难以为不同的充电站制定统一的调度策略。本文提出了一种多智能体强化学习(MARL)方法来学习最优能源购买策略和一种在线启发式调度方案来制定能源分配策略。不同于传统的调度方式,两种提议的策略在时间和空间维度上相互协调,以制定充电站统一的能源调度策略。具体来说,所提出的 MARL 方法结合了用于学习购买策略的多智能体深度确定性策略梯度 (MADDPG) 原理和用于预测电动汽车充电需求的长短期记忆 (LSTM) 神经网络。此外,开发了多步奖励功能以加速学习过程。

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9764664&tag=1

6c81444f1577629b4ed6029f078c6a70.png

0ffb53ac110e4ada32a1a4d34b24229f.png

ff7c63ab9c107a2162c40fd82b372b3a.png

4c5be83b51546a55e4ee2ba797c67147.png

577e93a08672805a56af5e03049019ad.png

资源推荐

标题:加州大学河滨分校:Yuanqi Gao | 基于强化学习的 Volt-VAR 控制数据集和测试环境了解详情

简介:为了促进基于强化学习 (RL) 的配电系统 Volt-VAR 控制 (VVC) 的开发,本文介绍了一套用于基于 RL 的 VVC 算法研究的开源数据集,该数据集具有样本效率、安全性和鲁棒性。其由两部分组成:1. 用于 IEEE-13、123 和 8500 总线测试馈线的类似 Gym 的 VVC 测试环境;2. 每个馈线的历史运行数据集。数据集和测试环境的潜在用户可以首先在历史数据集上训练一个样本高效的离线(批量)RL 算法,然后评估训练后的 RL 代理在测试环境中的性能。该数据集可作为一个有用的试验平台,用于模拟电力公司面临的实际运营挑战,开展基于RL的VVC研究。同时,它允许研究人员在不同算法之间进行公平的性能比较。

论文链接:

https://arxiv.org/pdf/2204.09500.pdf

数据集链接:

https://github.com/yg-smile/rl_vvc_dataset

7de13117358fad9870593af79028f506.png

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

baae9d46f8f453361957c77df5f63413.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值