《强化学习周刊》第29期:Atari 深度强化学习的研究综述、金融强化学习的最新进展...

No.29

智源社区

强化学习组

 习

e8f17058d2d969579c7bccebbc246833.png

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第29期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐和研究综述等,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖、陈元

13ab69f29dfb76fd7e2516ebcc03e9ec.png

499b4bf9ded2b05cddab84773f979f10.png

e509c5fd85446b1c7c1d23bf0acd629a.png

c0426495062296af410391e9a19ea2a4.png

03679dcbb0f33cb5b015dd23586e5786.png

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如分层强化学习在机器人及游戏领域、基于深度强化学习的金融投资组合、在线强化学习在多人非零和博弈应用、多智能体系强化学习在可再生能源应用相关的理论及其最新应用等。

本次推荐了13篇强化学习领域的相关论文,主要涉及于基于样本有效的分层强化学习玩 Minecraft、基于深度强化学习的高维股票组合交易、基于分层强化学习的四足机器人多步态学习、金融强化学习的最新研究进展、基于深度强化注意回归的局部草图图像检索、基于多智能体深度强化学习的可再生能源整合与微电网能源交易、RLCFR:通过深度强化学习最小化反事实后悔、可证明的高效多任务强化学习与模型转移、通过具有差异私有噪声的知识转移进行多智能体强化学习、基于深度强化学习协同推动和抓取紧密堆叠的对象、连续时间马尔可夫跳跃线性系统的在线强化学习多人非零和博弈等。

标题:JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning(JueWu-MC:基于样本有效的分层强化学习玩 Minecraft)了解详情

简介:由于部分可观察性、高维视觉感知和延迟奖励的复合挑战,在Minecraft等开放世界游戏中学习理性行为仍然是强化学习(RL)研究仍然具有挑战性。为此,本文提出了JueWu MC,一种样本有效的分层RL方法,配备了表征学习和模仿学习来处理感知和探索。具体地说,该方法包括两个层次结构,其中高级控制器学习控制选项的策略,低级控制器学习解决每个子任务。为了促进子任务的学习,本文提出了一种技术组合,包括1):捕捉动作和表征之间潜在关系的动作感知表征学习,2):基于鉴别器的自模仿学习,用于有效探索,以及 3) 集成行为克隆与一致性过滤以实现策略稳健性。大量的实验表明,JueWu MC显著提高了样本效率,大大优于一组基线。值得注意的是,该方法赢得了 NeurIPS MineRL 2021 研究竞赛的冠军,并取得了有史以来的最高性能分数。

论文链接:https://arxiv.org/pdf/2112.04907.pdf

标题:High-Dimensional Stock Portfolio Trading with Deep Reinforcement Learning(基于深度强化学习的高维股票组合交易)了解详情

简介:本文提出了一种基于深度Q学习的金融投资组合交易深度强化学习算法。该算法能够从任何规模的横截面数据集中交易高维投资组合,其中可能包括资产中的数据缺口和非唯一历史长度。通过为每个环境采样一项资产来依次设置环境,同时以所得资产的平均回报奖励投资,并以资产组的平均平均回报奖励现金储备。这会强制代理策略性地将资本分配给其预期业绩高于平均水平的资产。本文在样本外分析中应用了该方法,对48个美国股票投资组合进行了分析,股票数量从10只到500只不等,选择标准和交易成本水平也各不相同。平均而言,该算法在所有投资组合中仅使用一个超参数设置,大大优于所有考虑的被动和主动基准投资策略。

论文链接:https://arxiv.org/pdf/2112.04755v1.pdf

标题:Learning multiple gaits of quadruped robot using hierarchical reinforcement learning(基于分层强化学习的四足机器人多步态学习)了解详情

简介:由于其鲁棒性和可扩展性,人们对使用强化学习学习四足机器人的速度命令跟踪控制器越来越感兴趣。然而,无论命令速度如何,经过端到端训练的单一策略通常都会显示单一的步态。考虑到根据四足动物的速度存在最佳步态,这可能是次优解决方案。本文为四足机器人提出了一种分层控制器,它可以在跟踪速度命令的同时生成多种步态(即步伐、小跑、跳跃)。该控制器由两个策略组成,每个策略都用作中央模式生成器和本地反馈控制器,并通过分层强化学习进行训练。实验结果表明 1) 存在特定速度范围的最佳步态 ;2) 与由单个策略组成的控制器相比,本文的分层控制器的效率更高,通常显示单个步态。

论文链接: https://arxiv.org/pdf/2112.04741.pdf

标题:Recent Advances in Reinforcement Learning in Finance(金融强化学习的最新研究进展)了解详情

简介:由于数据量的增加,金融业发生了快速变化,这彻底改变了数据处理和数据分析技术,并带来了新的理论和计算挑战。与经典随机控制理论和其他解决严重依赖模型假设的财务决策问题的分析方法相比,强化学习 (RL) 的新发展能够以较少的模型假设充分利用大量金融数据并改进复杂金融环境中的决策。本文旨在回顾 RL 方法在金融领域的最新发展和使用。其介绍了马尔可夫决策过程,这是许多常用 RL 方法的设置。然后介绍了各种算法,重点是不需要任何模型假设的基于价值和策略的方法。通过神经网络建立连接以扩展框架以包含深度强化学习算法。本文的最新研究最后讨论了这些 RL 算法在金融领域的各种决策问题中的应用,包括最优执行、投资组合优化、期权定价和对冲、做市商、智能订单路由和机器人咨询。

论文链接:https://arxiv.org/pdf/2112.04553v1.pdf

标题:Renewable energy integration and microgrid energy trading using multi-agent deep reinforcement learning(基于多智能体深度强化学习的可再生能源整合与微电网能源交易)了解详情

简介:本文将多智能体强化学习用于控制混合储能系统,通过最大化可再生能源的价值和交易,协同工作以降低微电网的能源成本。智能体必须学会控制三种不同类型的储能系统,适合在需求波动、能源批发价格动态变化和可再生能源发电不可预测的情况下进行短期、中期和长期储能。本文考虑了两个案例研究:一个案例研究了储能系统如何在动态定价下更好地整合可再生能源发电,第二个案例研究了这些代理如何与聚合代理一起使用,将能源出售给自利的外部微电网,以减少自身的能源账单。研究表明,多智能体深度确定性策略梯度的集中学习和分散执行及其最先进的变体使得多智能体方法的性能明显优于单个全局智能体的控制。并在多智能体方法中使用单独的奖励函数比使用单个控制智能体的效果要好得多。其能够与其他微电网进行交易,而不仅仅是向公用电网出售电力,也能大大增加电网的节约。

论文链接:https://arxiv.org/pdf/2111.10898.pdf

标题:Deep Reinforced Attention Regression for Partial Sketch Based Image Retrieval(基于深度强化注意回归的局部草图图像检索)了解详情

简介:基于细粒度草图的图像检索(FG-SBIR)旨在从给定查询草图的大型图库中查找特定图像。尽管FG-SBIR在许多关键领域(如犯罪活动跟踪)具有广泛的适用性,但现有方法仍然存在精度低的问题,同时对外部噪声(如草图中不必要的笔划)敏感。在更实际的动态设置下,检索性能将进一步恶化,在这种情况下,只有一个只有少量(噪声)笔划的部分完整草图可用于检索相应的图像。该文提出了一个新的框架,利用一个独特设计的深度强化学习模型,执行双层次的探索来处理部分草图训练和注意区域选择。通过加强模型对原始草图重要区域的关注,它对不必要的笔划噪声保持鲁棒性,并大幅度提高检索精度。为了充分探索局部草图并定位要参与的重要区域,该模型执行引导策略梯度进行全局探索,同时调整控制局部探索定位器网络的标准偏差项。训练过程由混合损失指导,该混合损失集成了强化损失和监督损失。提出了一种动态排序奖励方法,以适应使用部分草图的动态图像检索过程。

论文链接:https://arxiv.org/pdf/2111.10917.pdf

标题:Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation(离线强化学习:价值函数逼近的基本障碍)了解详情

简介:本文考虑离线强化学习问题,其目的是从日志数据中学习决策策略。离线RL——特别是当与值函数近似结合以允许在大型或连续状态空间中进行泛化时——在实践中变得越来越重要,因为它避免了昂贵和耗时的在线数据收集,并且非常适合于安全关键领域。离线值函数近似方法的现有样本复杂度保证通常要求(1)分布假设(即良好的覆盖率)和(2)代表性假设(即代表部分或所有Q值函数的能力)强于监督学习所需。然而,尽管进行了几十年的研究,这些条件的必要性和离线RL的基本限制还没有得到很好的理解。这导致仅集中性(覆盖率的最标准概念)和可实现性(最弱的表示条件)不足以实现样本有效的离线RL。文章通过证明,在一般情况下,即使满足集中性和可实现性,任何算法都需要状态空间大小的样本复杂度多项式来学习非平凡策略,从而从正面解决了这个猜想。

论文链接:https://arxiv.org/pdf/2111.10919.pdf

标题: Information is Power: Intrinsic Control via Information Capture (信息就是力量:通过信息捕捉实现内在控制)

了解详情

简介: 人类和动物即使在没有明确目标的情况下也会探索他们的环境并获得有用的技能,表现出内在的动机。对智能体的内在动机的研究涉及以下问题:什么是智能体好的通用目标?本文在动态的部分观察环境中研究了这个问题,并认为一个紧凑的、通用的学习目标是使智能体的状态访问熵最小化,这个状态访问熵是用一个潜在的状态空间模型估计的。这个目标促使智能体既要收集关于其环境的信息,相应地减少不确定性,又要获得对其环境的控制,相应地减少未来世界状态的不可预测性。本文将这种方法实例化为一个配备了深度变异贝叶斯滤波器的深度强化学习代理。本文发现智能体学会了在各种部分观察的环境中发现、表示和控制动态物体,这些环境是通过视觉观察感知的,没有外在的奖励。

论文链接: https://openreview.net/pdf?id=MO76tBOz9RL

标题: Provably efficient multi-task reinforcement learning with model transfer (可证明的高效多任务强化学习与模型转移)

了解详情

简介: 本文研究了表格偶发马尔科夫决策过程(MDPs)中的多任务强化学习(RL)。文章中提出了一个异质多玩家RL问题,其中一组玩家同时面对相似但不一定相同的MDP,目标是通过玩家间的信息共享提高他们的集体表现。本文设计并分析了一个基于模型的算法提供了依赖差距和不依赖差距的遗憾上界和下界,以描述该问题的内在复杂性。

论文链接: https://openreview.net/pdf?id=qPOeyokHXT8

标题:Multi-agent reinforcement learning via knowledge transfer with differentially private noise(通过具有差异私有噪声的知识转移进行多智能体强化学习)了解详情

简介:在多智能体强化学习中,迁移学习是通过智能体之间的知识交换来加速学习性能的关键技术之一。但是,将这种技术应用于实际问题存在三个挑战:大多数现实世界的领域都是部分而非完全可观察的;未知领域的知识很难预先收集;负迁移阻碍了学习进度。本文针对多智能体强化学习问题提出了一种新的差分迁移学习方法,具有以下三个关键特征:允许智能体在部分可观察的域中实现彼此之间的实时知识转移;消除了对转移知识相关性的限制,这在很大程度上扩展了知识集;通过将差分指数噪声和相关权重应用于转移的知识来提高对负转移的鲁棒性。本文所提出的方法是第一个利用差分隐私的随机化特性来刺激多智能体强化学习系统中的学习性能的方法。

论文链接:https://onlinelibrary.wiley.com/doi/abs/10.1002/int.22648

标题:Collaborative Pushing and Grasping of Tightly Stacked Objects via Deep Reinforcement Learning(基于深度强化学习协同推动和抓取紧密堆叠的对象)了解详情

简介:直接抓取紧密堆叠的物体可能会引起碰撞并导致故障,从而降低机械臂的功能。观察到首先将物体推到相互分离的状态然后单独抓取它们可以有效提高成功率,本文设计了一种新颖的深度 Q 学习框架来实现协同推动和抓取。具体而言,提出了一种有效的非最大抑制策略(policyNMS),通过对不合理的动作实施抑制约束来动态评估推和抓取动作。此外,一种名为 PR-Net 的新型数据驱动推送奖励网络旨在有效评估对象之间的分离或聚合程度。本文在模拟和真实场景中建立了一个包含常见家居用品数据集(CHID)。实验结果证明本文的方法可以很好地泛化到真实场景中,并且在真实世界环境中以快速地实现了 97% 的抓取成功率以进行对象分离。

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9536651

标题:Online reinforcement learning multiplayer non-zero sum games of continuous-time Markov jump linear systems(连续时间马尔可夫跳跃线性系统的在线强化学习多人非零和博弈)了解详情

简介:本文中,提出了一种新颖的在线无模型积分强化学习算法来解决多人非零和游戏。本文首先收集和学习子系统的状态和输入信息;然后使用在线学习来计算相应的耦合代数 Riccati 方程。本文提出的策略迭代算法可以求解多人非零和博弈对应的耦合代数Riccati方程。最后,通过三个玩家的仿真实例证明了本文设计方法的有效性和可行性。

论文链接:https://www.sciencedirect.com/science/article/pii/S0096300321006214#!

标题:RLCFR: Minimize counterfactual regret by deep reinforcement learning(RLCFR:通过深度强化学习最小化反事实后悔)了解详情

简介:反事实后悔最小化 (CFR) 是一种用于处理具有不完全信息的两人零和博弈决策问题的主要方法。与以往主要探索解决大规模问题或加速求解效率的研究不同,本文提出了一个框架 RLCFR,旨在提高 CFR 方法的泛化能力。在 RLCFR 中,游戏策略是通过强化学习 (RL) 框架中基于 CFR 的方法来解决的。迭代交互策略更新的动态过程被建模为马尔可夫决策过程(MDP)。本文的方法学习策略以在迭代过程中选择合适的后悔更新方法。此外,还制定了逐步奖励函数来学习动作策略,这与迭代策略在每一步的执行情况成正比。在各种游戏上的大量实验结果表明,与现有的最先进方法相比,本文方法的泛化能力更高。

论文链接:https://www.sciencedirect.com/science/article/pii/S0957417421013063#!

8ed8edfc7c1cf04bcb334ade500e4648.png

73d47a7ff6df7fda2e26ea618bcbc642.png

00369e410b7206d85cdb7547e43ee79a.png

8557fbf293d42aecd1c3b4d2ca32b857.png

03dbac03307c3d98229c366ac33c732f.png

综述

标题:Atari 深度强化学习研究综述:基准、挑战和解决方案了解详情

简介:Arcade 学习环境 (ALE) 被提议作为一个评估平台,用于根据经验评估数十种 Atari 2600 游戏中代理的普遍性。ALE 提供了各种具有挑战性的问题,并引起了深度强化学习 (RL) 社区的极大关注。从 Deep Q-Networks (DQN) 到 Agent57,RL 代理似乎在 ALE 中实现了超人的表现。然而,情况真的如此吗?本文为了探讨这个问题,首先回顾了 Atari 基准中当前的评估指标,然后揭示了实现超人表现的当前评估标准是不合适的,这低估了人类相对于可能的表现。为了解决这些问题并促进 RL 研究的发展,本文提出了一种基于人类世界记录 (HWR) 的新型 Atari 基准,这对 RL 代理的最终性能和学习效率提出了更高的要求。此外,本文总结了 Atari 基准测试中最先进的 (SOTA) 方法,并提供了基于人类世界记录的新评估指标的基准测试结果。本研究得出的结论是,至少有四个公开的挑战阻碍了 RL 代理从这些新的基准结果中实现超人的表现。最后,本文还讨论了一些有前景的方法来处理这些问题。

论文链接:

https://arxiv.org/pdf/2112.04145v1.pdf

3f97b685de7dead2ed4984bb743e1bcf.png

2e190bd8b7fa362e7bf1f70bb774718f.png

080c235eb38cfc9756e08aeff7877b9e.png

6c1ec665c8a626faf37e94336a0a8a8b.png

085c94a6a7a0158c0627a6a6d06cc8f5.png

算法库

标题:ShinRL:从理论和实践角度评估 RL 的算法库了解详情

简介:本文介绍了 ShinRL,这是一个专门用于从理论和实践角度评估强化学习 (RL) 算法的开源库。现有的 RL 库通常允许用户通过返回来评估深度 RL 算法的实际性能。然而,这些库对于分析算法是否按理论预期执行并不一定有用,例如 Q 学习是否真的实现了最佳 Q 函数。相比之下,ShinRL 提供了一个 RL 环境接口,可以计算度量用于深入研究 RL 算法行为的指标,例如学习和最佳 Q 值之间的差距以及状态访问频率。此外,本文引入了一个灵活的求解器接口来评估两种理论上合理的算法(例如,动态规划和表格强化学习)和实际有效的强化学习(即深度强化学习,通常带有一些额外的扩展和正则化)以一致的方式。作为案例研究,本文展示了将 ShinRL 的这两个特征结合起来如何使分析深度 Q 学习的行为变得更容易。此外也证明了 ShinRL 可用于实证验证最近的理论发现,例如 KL 正则化对价值迭代和深度 Q 学习的影响,以及熵正则化策略对对抗性奖励的鲁棒性。

论文链接:

https://arxiv.org/pdf/2112.04123.pdf

6b85c08204e0f48fc57192c280977ae2.png

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

260cdaa3be1af7bc34e2b218a728b435.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值