《强化学习周刊》第31期:康奈尔大学推出基于强化学习的数据库调优工具DB-BERT...

No.31

智源社区

强化学习组

 习

e287ddd936a6a2f3b9761402d1d64048.png

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第31期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐及新工具,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖、陈元

c2632aeed0ffcf81993692163046bdb7.png

9443e1cf6ebe048e0836cb7031b45528.png

3fb980c617320b25341ac0d79ca7a784.png

abb793d8aa22893da414a9b5695d03e0.png

a32c775cb7d5b6d613aee39b12c182e5.png

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如深度强化学习在道路预测性维护、深度强化学习在组合优化问题、对抗性强化学习在自动驾驶领域、多智能体城市城市中深度强化学习在自动驾驶应用鲁棒性、安全深度强化学习、离线强化学习、深度强化学习应用于交通信号控制和5/6G相关的理论及其最新应用等。

本次推荐了13篇强化学习领域的相关论文,主要涉及于道路资产预测性维护规划的深度强化学习模型:集成 LCA 和 LCCA、求解无人机旅行商问题的深度强化学习方法、基于可信自动驾驶策略的对抗性深度强化学习、在多智能体城市驾驶环境中评估自主和对抗策略的深度强化学习的鲁棒性、基于水上航行的安全深度强化学习基准研究、基于约束强化学习的安全证书和安全控制策略联合综合、利用动作影响规律和部分已知模型进行离线强化学习、基于搜索和注意力的鲁棒调度学习、近端策略优化中提前停止优化的实证研究、学习奖励机器:部分可观察强化学习的研究、通过深度强化学习自适应优化交通信号时间、使用深度强化学习扩展 5G/6G 核心网中的 UPF 实例及基于深度强化学习的动态避障中速度信息缺失的影响等。

标题:A deep reinforcement learning model for predictive maintenance planning of road assets: Integrating LCA and LCCA(道路资产预测性维护规划的深度强化学习模型:集成 LCA 和 LCCA)了解详情

简介:道路维护规划是道路资产管理的组成部分。维护和修复(M&R)实践中的主要挑战之一是确定维护类型和时间。本研究基于长期路面性能(LTPP)数据库提出了使用强化学习的框架,以确定M&R实践的类型和时间。在所提出的算法中首先开发了预测DNN模型,该模型用作RL算法的环境。针对RL模型的策略估计,开发了DQN模型和PPO模型。由于更好的收敛性和更高的样本效率,最终选择了PPO。本研究中使用的指标是国际粗糙度指数(IRI)和车辙深度(RD)。并在成本效益计算(奖励)中,本文考虑了M&R处理的经济和环境影响。成本和环境影响已经用paLATE 2.0软件进行了评估。研究表明,本文拟议的计划有一个合乎逻辑的结果。决策者和运输机构可以利用这一方案进行更好的维护实践,防止预算浪费,同时最大限度地减少环境影响。

论文链接:https://arxiv.org/ftp/arxiv/papers/2112/2112.12589.pdf

标题:A Deep Reinforcement Learning Approach for Solving the Traveling Salesman Problem with Drone(求解无人机旅行商问题的深度强化学习方法)了解详情

简介:强化学习最近在许多组合优化问题的学习质量解决方案中显示出前景。特别是,基于注意力的编码器-解码器模型在各种路由问题上表现出很高的效率,包括旅行商问题。然而它们在带有无人机的TSP(TSP-D)中表现不佳,需要协调路由一个异构车队——一辆卡车和一架无人机。在TSP-D中,两辆车一前一后移动,可能需要在一个节点等待另一辆车加入。基于无状态注意力的解码器无法在车辆之间进行这种协调。故本文提出了一个注意力编码器-LSTM解码器混合模型,其中解码器的隐藏状态可以表示所做的动作序列。从经验上证明,这种混合模型在解决方案质量和计算效率方面都优于纯粹基于注意力的模型。并在min-max Capacitated Vehicle Routing Problem (mmCVRP)最小-最大容量约束车辆路径问题上的实验也证实了混合模型比基于注意力的模型更适合多车辆的协调路径。

论文链接:https://arxiv.org/pdf/2112.12545.pdf

标题:Adversarial Deep Reinforcement Learning for Trustworthy Autonomous Driving Policies(基于可信自动驾驶策略的对抗性深度强化学习)了解详情

简介:深度强化学习被广泛用于在模拟环境中训练自动驾驶汽车。尽管如此,无人驾驶汽车在遭遇敌对攻击时还是很容易受到攻击。由此引发的问题为是否可以训练对手作为驱动智能体,在自动驾驶汽车中发现故障场景,然后用新的对抗性输入重新训练自动驾驶汽车,以提高它们的鲁棒性。本文首先在两个自定义奖励函数上训练和比较对抗性汽车策略,以测试多智能体环境下自动驾驶汽车的驾驶控制决策。其次,通过验证对抗性示例不仅可以用于发现不想要的自动驾驶行为,还可以帮助自动驾驶汽车改进其深度强化学习策略。通过使用高保真城市驾驶模拟环境和基于视觉的驾驶代理,本文证明了使用对手播放器重新训练的自动驾驶汽车在减少碰撞和越野转向错误方面显著提高了其驾驶策略的性能。

论文链接:https://arxiv.org/pdf/2112.11937.pdf

标题:Evaluating the Robustness of Deep Reinforcement Learning for Autonomous and Adversarial Policies in a Multi-agent Urban Driving Environment(在多智能体城市驾驶环境中评估自主和对抗策略的深度强化学习的鲁棒性)了解详情

简介:深度强化学习被积极用于在基于视觉的城市模拟环境中训练自动驾驶智能体。由于各种强化学习算法的可用性很高,仍然不确定在单智能体和多智能体驾驶环境中训练自动驾驶汽车时,算法优劣性。基于视觉的自动驾驶中深度强化学习的比较将为训练更好的自动驾驶汽车策略开辟可能性。本文对6种深度强化学习算法进行了系统的评估和比较分析,分别用于四向交叉场景下的自主驾驶和对抗驾驶。即首先使用最新的深度强化学习算法来训练自动驾驶汽车。其次,测试了训练好的自主策略在单智能体和多智能体场景下的驱动能力。最后,使用相同的深度强化学习算法来训练对抗性驾驶代理,以测试自动驾驶汽车的驾驶性能,并寻找可能的碰撞和越野驾驶场景,和使用纯视觉高保真城市驾驶模拟环境进行实验。

论文链接:https://arxiv.org/pdf/2112.11947.pdf

标题:Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation(基于水上航行的安全深度强化学习基准研究)了解详情

简介:本文提出了一个新的基于水上航行的安全强化学习基准环境。由于非静态环境和机器人平台的不确定性,水上航行是一项极具挑战性的任务,因此通过分析训练网络的行为来避免危险情况(例如碰撞)来考虑问题的安全方面至关重要。为此,本文考虑了基于价值和策略梯度的深度强化学习(DRL),提出了基于交叉的策略,该策略结合了基于梯度和无梯度的DRL来提高样本效率。并且提出了基于区间分析的验证策略,该策略检查经过训练的模型在一组所需属性上的行为。研究结果表明,基于交叉的训练优于先前的DRL方法,而本文的验证允许量化违反由属性描述的行为的配置的数量。至关重要的是,这将成为该应用领域未来研究的基准。

论文链接:https://arxiv.org/pdf/2112.10593.pdf

标题:The Impact of Missing Velocity Information in Dynamic Obstacle Avoidance based on Deep Reinforcement Learning(基于深度强化学习的动态避障中速度信息缺失的影响)了解详情

简介:本文通过定义具有可变复杂度的交通类型独立环境,提出了一种基于深度强化学习的动态避障方法。填补了现有文献的空白,通过深入研究了速度信息缺失对智能体在避障任务中性能的影响。这在实践中是一个关键问题,因为几个传感器只产生物体或车辆的位置信息。本文评估了部分可观测场景中常用的方法,即在深层神经网络中加入递归和简单的帧叠加。对于本文的分析,其依赖于最先进的无模型深度RL算法。速度信息的缺乏会显著影响代理的性能。这两种方法—重现和帧叠加—都不能始终如一地替代观测空间中缺失的速度信息。但是,在简化的场景中,它们可以显著提高性能并稳定整个训练过程。

论文链接:https://arxiv.org/pdf/2112.12465.pdf

标题:Joint Synthesis of Safety Certificate and Safe Control Policy using Constrained Reinforcement Learning(基于约束强化学习的安全证书和安全控制策略联合综合)了解详情

简介:安全性是使用强化学习(RL)控制复杂动力系统的主要考虑因素,其中安全证书可以提供可证明的安全保证。有效的安全证书是一种能量函数,表明安全状态为低能,并且存在相应的安全控制策略,允许能量函数始终消散。安全证书和安全控制政策密切相关,两者都很难综合。因此,现有的基于学习的研究将其中一个视为学习另一个的先验知识,这限制了它们在一般未知动态下的适用性。本文提出了一种新的方法,该方法同时综合基于能量函数的安全证书,并利用CRL学习安全控制策略。本文不依赖现有基于模型的控制器或完美安全证书的先验知识。特别是,本文建立了一个损失函数,通过最小化能量增加的发生来优化安全证书参数。通过将此优化过程作为外环添加到基于拉格朗日的约束强化学习(CRL)中,本文联合更新策略和安全证书参数,并证明它们将收敛到各自的局部最优解、最优安全策略和有效安全证书。

论文链接:https://arxiv.org/pdf/2111.07695.pdf

标题:Exploiting Action Impact Regularity and Partially Known Models for Offline Reinforcement Learning(利用动作影响规律和部分已知模型进行离线强化学习)了解详情

简介:离线强化学习从一批数据中学习策略是很困难的:如果不做出强有力的假设,很容易构造反例,导致现有算法失败。在这项工作中,本文考虑了一些现实世界的问题,其中离线强化学习应该是有效的:那些行动只对国家的一部分有有限的影响。本文形式化并引入这个动作影响规律性(AIR)属性。文章进一步提出了一种算法,该算法假设并利用了AIR特性,并在MDP满足AIR时,对输出策略的次优性进行了约束。最后,文章在两个模拟环境中证明了算法在不同的数据收集策略下优于现有的离线强化学习算法。

论文链接:https://arxiv.org/pdf/2111.08066.pdf

标题:Learning Robust Scheduling with Search and Attention(基于搜索和注意力的鲁棒调度学习)了解详情

简介:基于信道质量、缓冲区大小、需求和约束为用户分配物理层资源是无线资源管理中的核心优化问题之一。解空间随着每个维度的基数组合增长,使得在严格的时间要求下,很难使用穷举搜索甚至经典优化算法找到最优解。这个问题在MU-MIMO调度中更为明显,由于调度器可以将多个用户分配给相同的时频物理资源。因此,传统的方法求助于设计启发式算法,以最优性换取执行的可行性。本文将MU-MIMO调度问题视为一个树结构的组合问题,并借鉴AlphaGo Zero最近的成功经验,研究使用蒙特卡罗树搜索和强化学习相结合的方法搜索最佳性能解决方案的可行性。为了迎合当前问题的本质,比如用户缺乏内在的排序以及用户组合之间依赖关系的重要性,通过引入自我注意机制对神经网络结构进行了根本性的修改。在存在测量不确定性和有限缓冲区的情况下,所得到的方法不仅可行,而且大大优于最新的基于启发式的调度方法。

论文链接:https://arxiv.org/pdf/2111.08073.pdf

标题:An Empirical Investigation of Early Stopping Optimizations in Proximal Policy Optimization(近端策略优化中提前停止优化的实证研究)了解详情

简介:代码级优化是算法实现中使用的低级优化技术,一般不会出现在已发布的强化学习(RL)伪代码算法中。最近研究表明,这些优化对算法的性能至关重要,如近端策略优化(PPO)。本文研究了在openai/spinningup库中,为PPO实施的一种称为“提前停止”的优化效果。如果目标策略和当前策略之间的平均Kullback-Leibler(KL)差异太大,这种优化技术(KLE Stop)可以在一个时期内停止策略更新。具体来说,本文进行实验以检验 KLE-Stop 及其保守变体 KLE-Rollback 在与其他常见代码级优化结合使用时的经验重要性。本文主要发现:1)PPO的性能对每个回合的更新迭代次数K很敏感,2)提前停止优化(KLE停止和KLE回滚)通过动态调整一个回合内的实际更新迭代次数来降低这种敏感性,3)提前停止优化可以作为调整K的一种方便的替代方法。

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9520424

标题:Learning Reward Machines: A Study in Partially Observable Reinforcement Learning(学习奖励机器:部分可观察强化学习的研究)了解详情

简介:强化学习(RL)是人工智能的核心问题,包括定义可以通过与环境交互来学习最佳行为的人工智能体—其中最佳行为是根据智能体寻求最大化的奖励信号来定义的。奖励机器 (RM) 提供奖励函数的结构化,使 RL智能体能够将 RL 问题分解为结构化子问题,这些子问题可以通过离线策略学习有效地学习。本文表明 RM 可以从经验中学习,而不是由用户指定,并且由此产生的问题分解可用于有效解决部分可观察的 RL 问题。本文将学习 RM 的任务视为离散优化问题,其目标是找到将问题分解为一组子问题的 RM,使得它们的最佳无记忆策略的组合是原始问题的最佳策略。本文在三个部分可观察的领域展示了这种方法的有效性,在这些领域它明显优于 A3C、PPO 和 ACER,并讨论了它的优势、局限性和更广泛的潜力。

论文链接:https://arxiv.org/pdf/2112.09477.pdf

标题:Adaptive Optimization of Traffic Signal Timing via Deep Reinforcement Learning(通过深度强化学习自适应优化交通信号时间)了解详情

简介:传统的红绿灯控制是通过优化循环长度,计算出一系列相应的时序参数的方法。然而,固定交通灯的顺序和持续时间对于动态交通流量调节是低效的。为了解决上述问题,本研究提出了一种基于深度强化学习(DRL)的交通灯配时优化方案。在该方案中,红绿灯可以根据路口各个方向的交通流状态输出合适的相位,动态调整相位长度。具体来说,本文首先采用近端策略优化(PPO)来提高模型的收敛速度。然后,本文详细阐述状态、动作的设计以及奖励,车辆状态由离散交通状态编码(DTSE)方法定义。最后,本文通过交通仿真平台SUMO对真实交通数据进行了实验。结果表明,与传统的时序控制相比,所提出的方案能够有效减少车辆在各种交通流模式下的等待时间和队列长度。

论文链接:https://downloads.hindawi.com/journals/jat/2021/6616702.pdf

标题:Scaling UPF Instances in 5G/6G Core With Deep Reinforcement Learning(使用深度强化学习扩展 5G/6G 核心网中的 UPF 实例)了解详情

简介:在 5G 核心和即将推出的 6G 核心中,用户平面功能 (UPF) 负责在协议数据单元(PDU)会话中向用户传输数据。UPF 通常在软件中实现并打包到虚拟机或容器中,这些虚拟机或容器可以作为 UPF 实例启动,在集群中具有特定的资源需求。为了节省 UPF 实例所需的资源消耗,启动 UPF 实例的数量应取决于客户所需的 PDU 会话数量,这通常由缩放算法控制。本文研究了深度强化学习 (DRL) 在扩展 Kubernetes 容器编排框架容器中的 UPF 实例方面的应用。本文提出了一种制定基于阈值的奖励函数的方法,并采用了近端策略优化 (PPO) 算法。此外,本文应用支持向量机 (SVM) 分类器来处理智能体因随机策略而建议不需要的动作时的问题。

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9648317

a686271c15c6082a87c5eab2e66acdc0.png

2ece45decf61b174ebb644da0c11238f.png

fd8d2a25a30264d1eb609912a596c21c.png

bcaf5118b2f6433e713becebbd085bdc.png

d6f044bc918e8eb314ce45c087531bfd.png

新工具

标题:康奈尔大学 | DB-BERT:“阅读手册”的数据库调优工具了解详情

简介:DB-BERT是一个数据库调优工具,它利用通过手册和其他相关文本文档的自然语言分析获得的信息。它使用文本来标识要调整的数据库系统参数以及推荐的参数值。DB-BERT应用大型的、预先训练好的语言模型(特别是BERT模型)进行文本分析。在初始训练阶段,它微调模型权重,以便将自然语言提示转换为推荐设置。在运行时,DB-BERT学会聚合、调整和区分提示的优先级,以实现特定数据库系统和基准的最佳性能。这两个阶段都是迭代的,使用强化学习来指导选择要评估的调优设置(惩罚数据库系统拒绝的设置,同时奖励提高性能的设置)。本实验利用数百个关于数据库调优的文本文档作为DB-BERT的输入。考虑到不同的基准(TPC-C和TPC-H)、度量(吞吐量和运行时间)以及数据库系统(Postgres和MySQL),并将DB-BERT与各种基准进行比较。在所有情况下,DB-BERT都会在所有比较的方法中找到最佳的参数设置。

论文链接:

https://arxiv.org/pdf/2112.10925.pdf

cd82e8a1b20657b5c3857a480df95fb6.png

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

59a7b000935237bdbd56e56545db536d.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值