《强化学习周刊》第65期:Neurips2022强化学习论文推荐(5)、MIT:机器狗当守门员、具身智能与机器人研讨会...

No.65

智源社区

强化学习组

 习

991f49d158dd7511e3773b27620eb016.png

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

8c033437e17e92c9034841444b787556.png

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

74b8bf473fe294f83eb0ca07005eddf9.jpeg

5d59e8254f8ff6ddaeedb2b11b0739d6.jpeg

ff460e6df9e28e65fdeeeef03a407305.jpeg

13cc6f8811b251865daa1b8d2483d631.jpeg

668da49668d7d52ae4211aa34e4941e0.jpeg

关于周刊

强化学习作为人工智能领域研究热点之一,其在人工智能领域以及学科交叉研究中的突出表现,引起越来越多的研究人员对该领域的关注。为更好地服务相关研究人员及时了解强化学习领域的研究进展以及科研资讯,智源社区结合以前工作基础及读者反馈,在论文推荐基础之上新增科研资讯、学术讲座、强化学习教程、相关招聘等板块,撰写为第65期《强化学习周刊》以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。社区将定期为推动强化学习社群建设表现优异的同学提供精美的奖品。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

3f7a205824f48a48cfe4f78f8f5ca745.jpeg

e4118d0c27e960cb0e1da5a29feb61d8.jpeg

b66f64a0d1d3a4b8f1ecbfc3a756f8e2.jpeg

3bec5384bec9d9c941558b912791b989.jpeg

78683388217791ac0cbd3d057fb8f0c4.jpeg

论文推荐

强化学习已经成为人工智能研究领域的热点,其在各个应用领域中取得了瞩目的成就。《强化学习周刊》共分四个板块,论文推荐板块继续为读者梳理了NeurIPS2022的另外12篇强化学习相关研究论文,其中涉及到鲁棒离线强化学习、分层强化学习、自主强华学习、价值函数学习在强化学习中的泛化、基于约束的强化学习方向等;科研资讯为大家分享来自MIT强势推出的机器狗当守门员研究论文,使用此框架的机器狗能够实现对快速移动的球进行各种敏捷拦截;本次招聘模块为大家推荐伊利诺伊大学香槟分校(UIUC)机器人学习实验室招收博士研究生(人工智能),有感兴趣的同学看下面详细介绍。本次教程推荐板块为大家分享于2022年6月8日至11日在美国布朗大学召开的第五届强化学习与决策多学科会议(RLDM 2022)。会议的特点是演讲者和与会者的多学科性,跨学科对话和教学是中心目标,同时传播新颖的理论和实验结果。

NeurIPS2022(Thirty-sixth Conference on Neural Information Processing Systems,第三十六届神经信息处理系统会议)是一年一度的国际人工智能顶会,今年将在11月28日至12月9日举办,第一周在新奥尔良会议中心举行线下会议,第二周举行虚拟会议。本次周刊继续为各位读者分享12篇强化学习研究论文。

标题:You Only Live Once: Single-Life Reinforcement Learning(Stanford University : Annie S | 只此一次:单生命强化学习)了解详情

简介:强化学习算法通常设计用于学习一种性能策略,该策略可以重复、自主地完成任务,通常从零开始。然而,在许多实际情况中,目标可能不是学习可以重复执行任务的策略,而是简单地在一次试验中成功执行一项新任务。例如,想象一个救灾机器人的任务是从倒塌的建筑物中取回物品,在那里它无法得到人类的直接监督。它必须在一次测试时间内取回这个物体,并且必须在处理未知障碍物时取回,尽管它可能会利用灾难前对建筑物的了解。本文将这种问题设置形式化,并称之为单生命强化学习(SLRL。SLRL提供了一个自然的环境来研究自主适应陌生情况的挑战,研究发现,为标准情景强化学习设计的算法通常很难从这种环境下的分布外状态中恢复。基于这一观察结果,进一步提出了Q加权对抗学习(QWALE)算法,它采用了一种分布匹配策略,在新情况下利用代理的先前经验作为指导。通过对几个单寿命连续控制问题的实验表明,基于本研究的分布匹配公式的方法的成功率提高了20-60%,因为它们可以更快地从新状态中恢复。

论文链接:https://arxiv.org/pdf/2210.08863.pdf

标题:Teacher Forcing Recovers Reward Functions for Text Generation(阿尔伯塔大学:Yongchang Hao | 教师强制恢复奖励功能以生成文本)了解详情

简介:强化学习(RL)已广泛用于文本生成,以缓解暴露偏差问题或利用非并行数据集。奖励功能对RL培训的成功起着重要作用。然而,先前的奖励功能通常是特定于任务且稀疏的,限制了RL的使用。本研究提出了一种任务无关的方法,该方法直接从一个经过教师强制训练的模型中推导出一个逐步的奖励函数。此外,还提出了一个简单的修改,通过诱导奖赏函数来稳定非平行数据集上的RL训练。实验结果表明,在多个文本生成任务中,该研究方法优于自我训练和奖赏回归方法,验证了奖赏函数的有效性。

论文链接:https://arxiv.org/pdf/2210.08708.pdf

标题:First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual Information Maximization(加州大学伯克利分校:Siddharth Reddy | 第一次接触:通过相互信息最大化实现无监督的人机协同适应)了解详情

简介:如何训练辅助人机界面(例如,基于肌电图的假肢),将用户的原始命令信号转换为机器人或计算机的动作?本文的关键思想是,无论任务是什么,当界面更直观时,用户的命令噪音更小。并将该想法形式化为完全无监督的优化接口目标:用户命令信号和环境中诱导的状态转换之间的相互信息。为了评估这种互信息评分是否能够区分有效和无效界面,本文对540K个用户操作各种键盘和眼睛注视界面进行了观察研究,用户用于打字、控制模拟机器人和玩视频游戏。结果表明,互信息得分可以预测各种领域的基本真相任务完成指标,平均Spearman秩相关为0.43。并通过随机初始化接口,让用户尝试使用界面执行他们想要的任务,测量相互信息得分,通过强化学习更新界面以最大限度地提高相互信息。对12名参与者的用户研究来评估该方法,使用扰动的鼠标执行2D光标控制任务,以及一名用户使用手势玩Lunar Lander游戏的实验。结果表明,可以在30分钟内从零开始学习界面,无需任何用户监督或事先了解任务。

论文链接:https://arxiv.org/pdf/2205.12381v2.pdf

标题:RORL: Robust Offline Reinforcement Learning via Conservative Smoothing(港科大:Rui Yang | RORL:通过保守平滑实现鲁棒离线强化学习)了解详情

简介:离线强化学习(RL)为利用大量离线数据进行复杂决策任务提供了一个很有前景的方向。由于分布移位问题,当前的离线RL算法在值估计和动作选择方面通常被设计为保守的。然而,在现实条件下,如传感器错误和对抗性攻击,当遇到观测偏差时,这种保守主义会削弱所学策略的鲁棒性。为了权衡稳健性和保守性,本文提出了鲁棒离线强化学习(RORL)和新的保守性平滑技术。在RORL中,引入了对数据集附近状态的策略和值函数的正则化,以及对这些OOD状态的额外保守值估计。理论上,研究表明RORL比线性MDP中最近的理论结果具有更紧的次优界。并证明RORL可以在一般离线RL基准上实现最先进的性能,并且对对抗性观测扰动具有相当大的鲁棒性。

论文链接:https://arxiv.org/pdf/2206.02829v2.pdf

标题:When to Ask for Help: Proactive Interventions in Autonomous Reinforcement Learning(斯坦福大学: Annie Xie|何时寻求帮助:自主强化学习中的主动干预)了解详情

简介:强化学习的一个长期目标是设计可以在世界上自主交互和学习的智能体。这种自主性的一个关键挑战是存在需要外部帮助才能恢复的不可逆状态,例如当机器人手臂将物体从桌子上推下时。虽然标准智能体需要持续监控来决定何时进行干预,但本文的目标是设计能够仅在需要时请求人工干预的主动智能体。为此,本文研究者提出了一种算法,该算法可以有效地学习检测和避免不可逆状态,并在智能体进入这些状态时主动寻求帮助。在一组具有未知不可逆状态的连续控制环境中,实验发现与现有方法相比,文中提出的算法表现出更好的样本和干预效率。

论文链接:https://arxiv.org/pdf/2210.10765.pdf

标题:Hierarchical Reinforcement Learning for Furniture Layout in Virtual Indoor Scenes(Bloo & Sea Lab: Xinhan Di, Pengqian Yu|虚拟室内场景中家具布局的分层强化学习)了解详情

简介:在现实生活中,通过设计家具布局对三维室内场景进行装饰,为人们提供了丰富的体验。在本文中,研究人员将家具布局任务作为虚拟现实中的马尔科夫决策过程(MDP)进行探讨,并通过分层强化学习(HRL)进行解决。研究者的目标是在虚拟现实的室内场景中产生一个合适的双家具布局。特别是, 文中首先设计了一个模拟环境,并介绍了双家具布局的HRL公式。然后,应用一个带有课程学习的分层行为者批评算法来解决MDP。相关研究人员在一个大规模的真实世界室内布局数据集上进行了实验,该数据集包含专业设计师的工业设计。数字结果表明,此文所提出的模型与最先进的模型相比,产生了更高质量的布局。

论文链接:https://arxiv.org/pdf/2210.10431.pdf

标题:Curriculum Reinforcement Learning using Optimal Transport via Gradual Domain Adaptation(卡内基梅隆大学: Peide Huang|通过渐进域适应使用最优传输的课程强化学习)了解详情

简介:课程强化学习(CRL)的目的是创建一个任务序列,从简单的任务开始,逐渐向困难的任务学习。本文专注于将CRL构建为源(辅助)和目标任务分布之间的插值的想法。尽管现有的研究显示了这一想法的巨大潜力,但如何正式量化和生成任务分布之间的移动仍然不清楚。受半监督学习中渐进式领域适应的启发,研究者通过将CRL中潜在的大型任务分布转变分解为较小的转变来创建一个自然课程。本文提出GRADIENT,它将CRL表述为一个最优传输问题,在任务之间有一个定制的距离指标。与许多现有的方法不同,此文的算法考虑了一个与任务相关的上下文距离度量,并且能够处理连续和离散上下文环境中的非参数分布。此外,本文在理论上表明,GRADIENT在某些条件下能够在课程的后续阶段之间顺利转移。

论文链接:https://arxiv.org/pdf/2210.10195.pdf

标题:Rethinking Value Function Learning for Generalization in Reinforcement Learning(首尔大学: Seungyong Moon | 重新思考价值函数学习在强化学习中的泛化)了解详情

简介:研究人员专注于在多个训练环境中训练 RL智能体以提高观察泛化性能的问题。在现有方法中,策略网络和价值网络分别使用不相交的网络架构进行优化,以避免干扰并获得更准确的价值函数。本文研究者发现,与传统的单环境设置相比,多环境设置中的价值网络更难优化,并且更容易过度拟合训练数据。此外,研究人员发现需要对价值网络进行适当的正则化才能获得更好的训练和测试性能。为此,本文提出了延迟批评策略梯度(DCPG),它通过使用比策略网络更多的训练数据更频繁地优化价值网络来隐式惩罚价值估计,这可以使用共享网络架构来实现。此外,本文研究者引入了一个简单的自我监督任务,该任务使用单个鉴别器学习环境的正向和反向动态,可以与价值网络联合优化。实验表明本文提出的算法显著提高了 Procgen基准测试中的观察泛化性能和样本效率。

论文链接:https://arxiv.org/pdf/2210.09960.pdf

标题:CEIP: Combining Explicit and Implicit Priors for Reinforcement Learning with Demonstrations(伊利诺伊大学厄巴纳-香槟分校: Kai Yan|CEIP:结合显式和隐式先验与演示进行强化学习)了解详情

简介:尽管强化学习在密集奖励环境中得到了广泛应用,但训练具有稀疏奖励的自主智能体仍然具有挑战性。为了解决这一困难,以前的研究表明,当不仅使用特定任务的演示,而且使用与任务无关的演示(尽管有点相关)时,结果是有希望的。在大多数情况下,可用的演示被提炼为隐式先验,通常通过单个深层网络表示。可以查询的数据库形式的显式先验也已被证明能带来令人鼓舞的结果。为了更好地利用现有的演示,本文提出了一种结合显式和隐式先验(CEIP)的方法。CEIP以并行规范化流的形式利用多个隐式先验来形成单个复杂先验。此外,CEIP使用有效的显式检索和前推机制来调节隐式先验。在三个具有挑战性的环境中,本文提出的CEIP方法可以改进复杂的最先进方法。

论文链接:https://arxiv.org/pdf/2210.09496.pdf

标题:Data-Efficient Pipeline for Offline Reinforcement Learning with Limited Data(斯坦福大学: Allen Nie|有限数据离线强化学习的数据高效管道)了解详情

简介:离线强化学习 (RL) 可用于通过利用历史数据来提高未来的性能。离线 RL 存在许多不同的算法,这些算法及其超参数设置可以导致具有显着不同性能的决策策略。这提示需要管道,允许研究人员系统地为其设置超参数。在大多数现实世界的环境中,这个管道必须只涉及历史数据的使用。受监督学习的统计模型选择方法的启发,本文引入了与任务和方法无关的管道,用于在提供的数据集大小有限时自动训练、比较、选择和部署最佳策略。特别是,本文的方法强调了执行多个数据拆分以产生更可靠的算法超参数选择的重要性。实验表明,当数据集较小时,它会产生重大影响。与替代方法相比,本文提出的管道从广泛的离线策略学习算法以及医疗保健、教育和机器人技术的各种模拟领域输出性能更高的部署策略。这项工作有助于开发用于离线 RL 的自动算法超参数选择的通用元算法。

论文链接:https://arxiv.org/pdf/2210.08642.pdf

标题:The Impact of Task Underspecification in Evaluating Deep Reinforcement Learning(麻省理工学院: Vindula Jayawardana|任务不规范对评估深度强化学习的影响)了解详情

简介:深度强化学习 (DRL) 方法的评估是该领域科学进步的一个组成部分。除了为通用智能设计 DRL 方法之外,设计特定于任务的方法在现实世界的应用中变得越来越重要。在这些设置中,标准评估实践涉及使用马尔可夫决策过程 (MDP) 的一些实例来表示任务。然而,由于底层环境的变化,许多任务会引发大量的 MDP,尤其是在现实世界中。例如,在交通信号控制中,变化可能源于交叉口的几何形状和交通流量水平。因此,选择的 MDP 实例可能会无意中导致过度拟合,缺乏统计能力来得出关于该方法在整个家族中的真实性能的结论。本文中增加了 DRL 评估以考虑 MDP 的参数化家族。与在选定的 MDP 实例上评估 DRL 方法相比,评估 MDP 系列通常会产生截然不同的方法相对排名,从而怀疑哪些方法应该被视为最先进的方法。作者在标准控制基准和交通信号控制的实际应用中验证了这一现象。

论文链接:https://arxiv.org/pdf/2210.08607.pdf

标题:When to Update Your Model: Constrained Model-based Reinforcement Learning(清华大学: Tianying Ji|何时更新模型:基于约束的强化学习)了解详情

简介:设计和分析具有保证单调改进的基于模型的 RL (MBRL) 算法一直具有挑战性,这主要是由于策略优化和模型学习之间的相互依赖关系。现有的差异界限通常忽略模型变化的影响,并且其相应的算法容易因模型的剧烈更新而降低性能。本文首先提出了一种新颖且通用的理论方案,用于保证 MBRL 的非递减性能。后续派生的界限揭示了模型转变和性能改进之间的关系。作者制定一个受约束的下界优化问题,以允许 MBRL 的单调性。另一个例子表明,从动态变化的探索次数中学习模型有利于最终的回报。受这些分析的启发,本文设计了一个简单但有效的算法 CMLO(约束模型转移下界优化),通过引入一个事件触发机制来灵活地确定何时更新模型。实验表明,CMLO 超越了其他最先进的方法,并在采用各种策略优化方法时产生了提升。

论文链接:https://arxiv.org/pdf/2210.08349.pdf

2f4c3ea23ef8bf862f9349e870e8955e.jpeg

9abaf8448cfd38e46b51cd17184a5269.jpeg

59beb5ddefa2480b1377db5752fac644.jpeg

ff969ab9bfc2d3a2948cbddc4add9fc5.jpeg

fafc8524f06eef6a734dd4bfd57e4a0a.jpeg

科研资讯

标题:机器狗当守门员,成功拦截多种快球了解详情

简介:Mini Cheetah 是 MIT 在 2019 年研发的四足机器人(机器狗),来自加州大学伯克利分校等机构的研究者为 Mini Cheetah 部署了一个新的强化学习框架,让它完成足球守门任务,守门成功率高达 87.5%。使用机器狗当足球守门员是一个具有挑战性的问题,它将高度动态的运动与精确和快速的非抓握物体(球)操纵相结合。机器狗需要在很短的时间内(通常不到一秒)使用动态运动机动对潜在的飞行球做出反应并拦截。本文研究者使用分层无模型 RL 框架来解决这个问题。该框架的第一个组件包含针对不同运动技能的多个控制策略,可用于覆盖目标的不同区域。然后,这些技能被框架的第二部分使用,以确定所需的技能和末端执行器轨迹,来拦截飞向目标不同区域的球。使用此框架的机器狗能够实现对快速移动的球进行各种敏捷拦截。

资讯链接:https://arxiv.org/pdf/2210.04435.pdf

ffa539bbc418b8425ec363fd94c0ba96.jpeg

59354478b2387bdcebd5a26e2120977b.jpeg

5e315e1f4fdf40d68452c9917238706d.jpeg

768ef40976e5010e12896b32384b8c95.jpeg

75d8165f1ad6e35206c8f67bc30dabb4.jpeg

招聘信息

标题:伊利诺伊大学香槟分校(UIUC)机器人学习实验室招收博士研究生(人工智能)了解详情

简介:伊利诺伊大学香槟分校(UIUC)机器人学习(Robot Learning)实验室将于2023年秋季成立。实验室会主要关注机器人学习这个大方向,希望能帮助机器人更好的感知周围的环境以及和物理世界进行交互,涉及到机器人学(Robotics)、计算机视觉(Computer Vision)、机器学习(Machine Learning)等领域的交叉。

具体方向:1. 具身人工智能(Embodied Intelligence),主要探讨机器人在复杂的多任务场景中的泛化能力,以及从模拟器到真实世界的转化;2.多模态感知(Multi-Modal Perception),主要关注视觉、触觉、听觉、甚至语言如何帮助机器人提升和实现更加精细和多样的操作任务;3.基于学习的动力系统建模(Intuitive Physics, or Learning-Based Dynamics Modeling),具体会关注具有复杂物理特性的物品的动力学建模、工具使用(Tool-Using)以及更宏观的多步操作任务。

招聘链接:https://grad.illinois.edu/admissions/apply

69df4a37e17466b40ec59b8ba8efc423.jpeg

a9834091f5312f8b6cbb651a996637c2.jpeg

fe870d4d8b5b54118a5e2e6589570455.jpeg

afedc74c0b4b72d22aa9c4dc41580eff.jpeg

fdc42dfe894da09b692eea3d74d2c8b8.jpeg

教程推荐

标题:第五届强化学习与决策多学科会议了解详情

简介:第五届强化学习与决策多学科会议(RLDM 2022)于2022年6月8日至11日在美国布朗大学召开。强化学习和决策一直是大量研究的焦点,这些研究跨越了广泛的领域,包括心理学、人工智能、机器学习、运筹学、控制理论、动物和人类神经科学、经济学和行为学。该领域许多发展的关键是跨学科分享想法和发现。RLDM 的目标是为所有对“为实现目标而不断学习和决策”感兴趣的研究人员提供一个交流平台。会议的特点是演讲者和与会者的多学科性,跨学科对话和教学是中心目标,同时传播新颖的理论和实验结果。

教程链接:https://rldm.org/

6787553f3f2c2a039a7f4104bd0e76e8.jpeg

5c1ebf7421226546d79b820408864cbc.jpeg

39825ce4196b972da8542691a77b1dc3.jpeg

214ad8009f70542a5992994a2808869e.jpeg

054f20d233726a9e46ad0b215f191d5b.jpeg

观点分享

标题:打造有身体的 AI丨记青源Workshop具身智能与机器人研讨会

了解详情

简介:「青源Workshop」是智源研究院发起的青源会系列闭门研讨,鼓励参会者“合作 · 探索 · 实践”——探讨关于未来研究、系统、创业话题的合作设想、工作规划、协作倡议。

2022年10月9日,本年度第8期「具身智能与机器人」主题活动召开,北京大学王鹤、清华大学眭亚楠、谷歌大脑团队夏斐在会上作了关于 Sim2Real、具身智能在人体运动恢复、基于语言视觉模型规划的具身推理等话题的引导报告。30余位学者参与了本次讨论,智源社区将本次活动报告与讨论公开部分的主要内容进行了整理。

e991bef1a077e273200e1b3a3cca000a.jpeg

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

483766ed81bb4c1427961f81098fa6c3.png

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值