《强化学习周刊》第9期：强化学习与决策智能

智源社区

于 2021-06-11 18:00:00 发布

阅读量1.7k

点赞数

文章标签：算法机器学习人工智能深度学习强化学习

原文链接：http://forms.baai.ac.cn/f/clC1l5

版权

No.09

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，它在决策智能领域中的应用研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第9期《强化学习周刊》。本期周刊整理了近期强化学习在决策智能相关的最新论文推荐、研究综述、研究资讯、新工具等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、陈斌

论文推荐

强化学习近年来取得了令人瞩目的成就，将其应用于决策智能领域也取得较大的进步。强化学习中，智能体与环境进行不断的交互，基于环境的反馈学习如何选择一系列动作，以使长期累积的奖励和最大。近年来，该方向已经取得了一系列瞩目的进展，比如工业控制中的电网控制与数据中心冷却、电子竞技游戏中的OpenAI Five与AlphaStar、棋类游戏中的AlphaZero与MuZero等。故将强化学习应用于决策智能领域具有较大的优势。

强化学习在决策智能领域中的应用越来越多，其在自动驾驶、游戏、车辆调度等方面都有了深入的应用。本次推荐了8篇强化学习在决策智能领域应用的相关论文，主要涉及到实时策略游戏、自动驾驶、乘车订单调度、列车控制、复杂博弈策略决策等。

标题：Multi-Agent Deep Reinforcement Learning using Attentive Graph Neural Architectures for Real-Time Strategy Games（实时策略游戏中使用注意图神经结构的多智能体深度强化学习）了解详情

简介：在实时策略（RTS）游戏人工智能研究中，当今广泛且积极地使用各种多主体深度强化学习（MADRL）算法。大多数研究都基于StarCraft II环境，因为它是全球最著名的RTS游戏。本文提出了一种新颖的多智能体深度强化学习算法，该算法控制实时策略（RTS）游戏中的多agent。其中，基于MADRL的算法基本上是基于分布式计算的，它是分类状态图注意策略（CSGA-policy）和QMIX神经结构的结合。CSGA策略用于状态分类和图形关注，以显着降低计算复杂度，并且图形注意用于学习agent之间的关系。训练使用QMIX执行，该QMIX在训练期间是集中的，而在推断过程中它会分布在代理之间，以采取单独的措施。本文性能评价结果验证了该算法在各种设置的StarCraft II《星际争霸II》环境中均表现出良好的性能。

论文链接：https://arxiv.org/pdf/2105.10211.pdf

标题：Ensemble Quantile Networks: Uncertainty-Aware Reinforcement Learning with Applications in Autonomous Driving（集成分位数网络：不确定性感知强化学习及其在自动驾驶中的应用）了解详情

简介：强化学习（RL）可用于创建自动驾驶的决策代理。然而，以前的方法只提供黑盒解决方案，没有提供有关代理对其决策有多自信的信息。对智能体决策的任意性和认知性不确定性的估计对于自动驾驶的实际应用至关重要。因此，本文引入了集成分位数网络（EQN）方法，该方法将分布RL方法与集成方法相结合，以获得完整的不确定性估计。通过隐式学习分位数函数估计收益率的分布，给出了任意不确定性，而在bootstrapped数据上训练一个agent集合来提供认知不确定性的贝叶斯估计。研究结果表明，所提出的EQN算法结合了IQN和RPF方法的优点，其考虑了估计的任意不确定性，能够在不同交叉路口场景中平衡风险和时间效率。此外，经过训练的智能体可以利用认知不确定性信息来识别智能体尚未经过训练的情况，从而避免在训练分布之外做出毫无根据的、潜在危险的决策。

论文链接：https://arxiv.org/pdf/2105.10266.pdf

标题：A Deep Value-network Based Approach for Multi-Driver Order Dispatching（基于深度价值网络的多驾驶员订单调度方法）了解详情

简介：本文提出了一种基于深度强化学习的乘车订单调度解决方案。通过滴滴的乘车调度平台，该方法在大规模的在线A/B测试中实现了驾驶员总收入和用户体验相关指标的显著改善。首先，针对订单调度问题，将其建模为一种新的半马尔可夫决策过程，以考虑时间扩展的调度行为。其次，提出了一种新颖的分布式状态表征层Cerebellar价值网络（CVNet），并在此基础上提出了一种新的Lipschitz正则化方案，以保证策略评估过程中值迭代的鲁棒性和鲁棒性。实际数据实验研究结果表明，CVNet对异常点具有很强的鲁棒性，对未知数据具有很好的泛化能力。大量的仿真和在线A/B测试结果表明，CVNet的性能优于其他最新的调度策略。最后，本文使用迁移学习可以进一步改进先前的结果，并有助于CVNet在城市间的扩展。

论文链接：https://arxiv.org/pdf/2106.04493.pdf

标题：There Is No Turning Back: A Self-Supervised Approach for Reversibility-Aware Reinforcement Learning（No Turning Back: 基于自监督的可逆性强化学习方法）

了解详情

简介：本文提出学习区分可逆和不可逆动作的方法，以便应用强化学习 (RL) 做出更明智的决策。从理论上的考虑，其通过一个简单的代理任务来学习近似可逆性：按时间顺序对随机采样的轨迹事件进行排序。直观地说，总是以相同顺序观察到的成对事件很可能被不可逆的动作序列分开。基于此，本文用一种完全自我监督的方法来学习事件的时间顺序，该方式无需任何先验知识就可以从经验中估计动作的可逆性。本文提出了两种不同的策略，将可逆性纳入 RL 代理，一种是探索策略（RAE）用于定向探索，一种是控制策略（RAC）用于定向控制。研究结果展示了可逆性感知代理在多种环境中的潜力，包括具有挑战性的Sokoban游戏。在综合任务中的研究结果表明该方法可以学习永不失败的控制策略并将交互的副作用减少到零，即使不使用奖励函数。

论文链接：https://arxiv.org/pdf/2106.04480.pdf

论文标题：使用参考系统进行深度强化学习，以处理约束实现节能列车控制了解详情

简介：列车节能控制涉及复杂的优化过程，这些过程受速度，时间，位置和舒适度要求等约束。常规的优化技术不适合通过学习连续遇到的新问题来将大量解决方案实例累积到决策智能中。深度强化学习（DRL）可以直接基于当前状态输出控制决策，它已显示出下一代智能控制的巨大潜力。但是，如果将DRL直接应用于节能列车控制，则接收到的结果几乎不能令人满意。原因在于，智能体可能对如何权衡这些约束感到困惑，并花费大量的计算时间来进行大量无意义的探索。本文尝试提出一种带有参考系统（DRL-RS）的DRL方法，用于主动约束处理，该参考系统用于检查和纠正代理的学习进度，从而避免越走越远。通过地铁线路列车控制的数值实验对提出的方法进行了评估。实验结果表明，与直接应用的DRL相比，DRL-RS可以实现更快的学习收敛。

论文链接：https://www.sciencedirect.com/science/article/pii/S0020025521004291

标题：具有稳定性的分布式无模型强化学习控制了解详情

简介：分布式学习可以在众多复杂的网络物理系统（例如智能交通）中实现可扩展且有效的决策。这种局限性可能会阻碍机器学习在安全关键系统的决策中的广泛部署。这封信提出了一个用于互连线性子系统的，保证稳定性的分布式强化学习（SGDRL）框架，而无需了解子系统模型。虽然学习过程需要来自对等（p2p）通信体系结构的数据，但是每个子系统的控制实现仅基于其本地状态。互连子系统的稳定性将通过对角线主导特征值条件来确保，然后将其用于无模型RL算法中，以学习稳定的控制增益。RL算法结构遵循非策略迭代框架，具有交错的策略评估和策略更新步骤。

论文链接：

https://ieeexplore.ieee.org/document/9273047/

标题: 通过图注意力网络抽象多智能体博弈问题了解详情

简介：大规模多智能体系统中，复杂的博弈关系给策略学习带来的巨大的困难。所以简化学习的过程就是一个非常关键的研究问题。而在多智能体的互动当中，智能体往往只需要和局部的智能体发生互动关系，传统方法试图使用预定义的规则来捕捉智能体之间的关系，然而这种规则不能直接用在大规模环境中。本文提供了个完整的图关系来模拟代理关系，并提出了一个新的游戏抽象机制。用一种新的注意力网络抽象机制能指示两个代理间是否存在互动及其重要性。

论文链接：https://arxiv.org/pdf/1911.10715.pdf

研究综述

强化学习在网约车中的应用：研究综述了解详情

简介：本文针对应用强化学习方法解决网约车领域中存在的问题进行了全面，深入的文献综述。主题涵盖了在线匹配，车辆重新定位，乘车拼车和动态定价等，进而介绍了相关的数据集和仿真环境，并讨论了强化学习研究应用于在此重要领域面临的挑战和机遇。

论文链接：https://arxiv.org/pdf/2105.01099.pdf

强化学习中的状态表征学习: 研究综述了解详情

简介: 本文主要总结了表征学习算法在强化学习中的运用。这里的表征特指状态表征学习，它是一类将高纬度的智能体状态映射到低维空间的特殊的表征学习。这里的表征学习帮助解决了强化学习中可能会遇到的维数灾难，提供更具解释性的算法框架。此文中回顾了许多运用于(虚拟或真实)机器人控制任务中的状态表征的算法。最后它还讨论总结了表征方法未来的研究线路。

论文链接：https://arxiv.org/pdf/1802.04181.pdf

教程

滴滴自动驾驶：充满“不确定性”环境下的决策和控制了解详情

简介：实现自动驾驶是一个复杂的系统工程，需要精准感知环境，理解交通参与者的意图并能够在广泛丰富的场景下，实现稳定安全的无人驾驶。需要面对真实路况中的大量 “不确定性”。这种不确定性是贯穿上下游的，并且感知局限性、行为预测偶然性、规控交互性共同交织的挑战。在不确定性挑战中的规控相应需要满足稳定性和可扩展性的双重特性，但这两个特性存在冲突，且基于单一特性发展的系统会存在技术弊端。本文将探讨规控模块如何去攻克和突破：通过收集海量的数据信息，并使用数据驱动的方法论来驱动技术的迭代。重点从数据驱动的问题分析，算法开发迭代、系统性验证这三个层面切入探讨。

华为诺亚方舟实验室决策推理方向6篇论文获ICML2021录用了解详情

简介：机器学习领域领三大最具影响力会议之一的ICML(International Conference on Machine Learning) 机器学习国际会议公布录用结果，华为诺亚方舟实验室决策推理方向6篇论文被接收，其中包括一篇长文大会口头报告(LongOral)。研究涉及图卷积网络、神经网络、博弈论、强化学习等多个领域的探索。本文将分别概述研究成果与亮点。

新工具

MarioMix: 通过交互式强化学习为机器人创建对齐的游戏风格了解详情

简介：本文提出了一个通用的框架，该框架使游戏开发者无需具备机器学习知识，就可以根据自己的喜好来创建具有行为风格的机器人行为。此外，该框架基于交互式强化学习（IRL），并使用它创建了一个名为MarioMix的行为创作工具。此工具使非专家能够为名为“Super Mario Bros”的游戏创建具有不同游戏风格的机器人。MarioMix的主要交互过程包括向最终用户展示具有不同游戏风格的预计算机器人的短游戏剪辑。然后，最终用户可以选择具有预期行为的playstyle的bot。最好，本文通过整合业内游戏设计师的意见来评估MarioMix。研究结果表明MarioMix是一个在游戏行业环境中通过交互式RL创建一致机器人行为的有效工具。

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

智源社区

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
《强化学习周刊》第9期：强化学习与决策智能

No.09智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一，它在决策智能领域中的应用研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的...
复制链接

扫一扫