《强化学习周刊》第20期:CVPR-2021&2020强化学习的最新研究与应用

No.20

智源社区

强化学习组

 习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。并且诸多研究成果发表于CVPR-2021&2020学术会议中,为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第20期《强化学习周刊》。本期周刊整理了CVPR-2021&2020中强化学习领域相关的最新论文推荐和新工具等,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

 

本期贡献者:李明,刘青,小胖

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。人工智能顶会CVPR-2021&2020对强化学习取得了一系列瞩目的进展进行了发布,比如基于无监督视觉强化学习的最新研究、基于模拟强化学习的点云配准、基于鲁棒拟合的无监督强化学习相关的理论及其最新应用等。

本次推荐了10篇CVPR-2021&2020强化学习领域的相关论文,主要涉及基于无监督视觉注意力与不变性的强化学习、基于模拟和强化学习的点云配准、基于鲁棒拟合的无监督学习:一种强化学习方法、用分组稀疏训练加速深度强化学习、基于强化学习的动态人脸视频分割、基于多智能体深度强化学习的迭代优化交互式 3D 医学图像分割、基于隐性潜在动作的城市驾驶的端到端无模型强化学习、强化学习在图形推理的启发式规则应用等。

标题:Unsupervised Visual Attention and Invariance for Reinforcement Learning(基于无监督视觉注意力与不变性的强化学习)了解详情

简介:基于视觉的强化学习(RL)的研究取得了显著成果,但如何将其推广到未知的测试环境仍然是一个挑战。现有方法专注于训练对不断变化的视觉领域通用的 RL 策略,而本文侧重于提取通用的视觉前景,为RL策略学习器提供干净不变的视觉。该方法是完全无监督的,无需手动注释或访问环境内部。给定训练环境中的动作视频,进而学习如何使用无监督的关键点检测提取前景,然后通过无监督的视觉注意自动生成每个视频帧的前景遮罩。然后通过引入人工干扰物,并训练一个模型,从噪声观测中重建干净的前景遮罩。在测试期间,仅需要此学习模型为RL政策学习者提供无干扰的视觉输入。本文的视觉注意力和不变性(VAI)方法在视觉领域综合方面显著优于最先进的方法,在DeepMind Control(本文的 DrawerWorld Manipulation)基准测试中,每集累积奖励增加15-49%(61-229%)。本文的研究结果表明,该方法不仅可以在没有任何监督的情况下学习领域不变的视觉,而且将RL从视觉干扰中解放出来也可以使策略更加集中,因此效果更好。

论文地址:https://arxiv.org/pdf/2104.02921.pdf

 

标题:ReAgent: Point Cloud Registration using Imitation and Reinforcement Learning(ReAgent:基于模拟和强化学习的点云配准)了解详情

简介:点云配准是许多3D计算机视觉任务中的一个常见步骤,例如物体姿态估计,其中3D模型与观测值对齐。经典的配准方法可以很好地推广到新的领域,但在给定噪声观测或错误初始化时失败。相比之下,基于学习的方法更健壮,但缺乏泛化能力。基于此,本文提出考虑迭代点云注册作为强化学习任务,为此,本文提出了一种新的注册智能体(ReAgent)。通过采用模仿学习来初始化其基于稳定专家策略的离散注册策略。基于提出的对齐奖励,与策略优化的集成进一步提高了智能体的注册性能。在ModelNet40(合成)和ScanObjectNN(真实数据)上将该方法与经典的和基于学习的注册方法进行了比较,研究结果表明本文的ReAgent 获得了最先进的准确性。此外,与相关方法相比,智能体的轻量级体系结构能够减少推理时间。此外,将该方法应用于真实数据上的物体姿态估计任务(LINEMOD),研究结果优于最先进的姿态细化方法。

论文地址:https://arxiv.org/pdf/2103.15231.pdf

 

标题:Unsupervised Learning for Robust Fitting:A Reinforcement Learning Approach(基于鲁棒拟合的无监督学习:一种强化学习方法)了解详情

简介:鲁棒模型拟合是计算机视觉应用中的核心算法。然而,由于潜在的计算复杂性,对于被异常值高度污染的数据集,有效地解决这个问题仍然具有挑战性。最新的研究文献侧重于基于学习的算法上。然而,大多数方法都是有监督的,需要大量有标签的训练数据。本文中介绍了一种新颖的无监督学习框架,该框架学习直接解决稳健模型拟合问题。与其他方法不同,本研究对潜在的输入特征是不可知的,并且可以很容易地推广到具有拟凸残差的各种LP型问题。通过经验表明,该方法优于现有的无监督学习方法,并在一些重要的计算机视觉问题上取得了与传统方法相比的竞争结果。

论文地址:https://arxiv.org/pdf/2103.03501.pdf

 

标题:Dynamic Face Video Segmentation via Reinforcement Learning(基于强化学习的动态人脸视频分割)了解详情

简介:对于实时语义视频分割,最近的工作利用具有关键调度程序的动态框架来做出在线关键/非关键决策。一些工作使用了固定的密钥调度策略,而另一些则提出了基于启发式策略的自适应密钥调度方法,这两种方法都可能导致全局性能欠佳。为了克服这个限制,本文将动态视频分割中的在线关键决策过程建模为一个深度强化学习问题,并从有关决策历史的专家信息和最大化全局回报的过程中学习高效和有效的调度策略。此外,本文研究了动态视频分割在人脸视频上的应用,这是一个以前没有研究过的领域。通过对 300VW 数据集进行评估,实验表明,在有效的关键选择和运行速度方面,本文的强化关键调度程序的性能优于各种基线。Cityscapes 数据集的进一步结果表明,提出的方法也可以推广到其他场景。,这是第一项将强化学习用于动态视频分割中的在线关键帧决策的工作,也是第一项将其应用于人脸视频的工作。

论文地址:https://arxiv.org/pdf/1907.01296.pdf

 

标题:Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation(基于嵌入式导航的可转移元技能的无监督强化学习)(CVPR2020)了解详情

简介:视觉导航是通过仅使用视觉观察智能地导航到目标对象(例如,电视)来训练具体智能体的任务。当前深度强化学习模型的一个关键挑战在于对大量训练数据的需求。构建足够的用目标对象信息注释的 3D 合成环境是非常昂贵的。在本文中,专注于低资源环境中的视觉导航,其中只有少数用对象信息注释的训练环境。本文提出了一种新颖的无监督强化学习方法,可以在没有任何监督信号的情况下从未注释的环境中学习可转移的元技能(例如绕过障碍物、直行)。当提供视觉导航指定的奖励时,智能体可以通过学习高级主策略来组合这些元技能,从而快速适应视觉导航。在 AI2-THOR 环境中的评估表明,本文的方法在 SPL 上显着优于基线 53.34%,进一步的定性分析表明该方法学习了用于视觉导航的可转移运动原语。

论文地址:https://arxiv.org/pdf/1911.07450.pdf

标题:Iteratively-Refined Interactive 3D Medical Image Segmentation with Multi-Agent Reinforcement  Learning(基于多智能体深度强化学习的迭代优化交互式 3D 医学图像分割)(CVPR2020)了解详情

简介:现有的自动 3D 图像分割方法通常不能满足临床使用。许多研究探索了一种交互式策略,通过迭代地结合用户提示来提高图像分割性能。然而,连续交互的动态过程在很大程度上被忽略了。本文建议将迭代交互式图像分割的动态过程建模为马尔可夫决策过程 (MDP),并使用强化学习 (RL) 解决它。不幸的是,由于探索空间很大,使用单智能体 RL 进行体素预测是很困难的。为了将探索空间减小到易于处理的范围,本文将每个体素视为具有共享体素级行为策略的智能体,以便可以通过多智能体强化学习来解决。这种多智能体模型的另一个优点是捕获体素之间的依赖性以进行分割任务。同时,为了丰富先前分割的信息,本文在 MDP 的状态空间中保留了预测的不确定性,并导出了一个调整动作空间,导致更精确和更精细的分割。此外,为了提高探索效率,本文设计了一个基于相对交叉熵增益的奖励,以在受限方向上更新策略。在各种医学数据集上的实验结果表明,本文的方法显著优于现有的最先进方法,具有交互更少和收敛速度更快的优势。

论文地址:https://arxiv.org/pdf/1911.10334.pdf

标题:End-to-End Model-Free Reinforcement Learning for Urban Driving using Implicit Affordances (基于隐性潜在动作的城市驾驶的端到端无模型强化学习)(CVPR2020)了解详情

简介:强化学习(RL)的目的是从自身的实验中学习一个最优的行为策略,而不是基于规则的控制方法。然而,目前还没有一种RL算法能够处理像城市驾驶这样困难的任务。本文提出了一种新的技术,即隐形潜在动作,以有效地利用RL来处理城市驾驶,从而包括车道保持、行人和车辆避让以及交通灯检测。据所知,本文是第一个提出成功的RL智能体处理如此复杂的任务,尤其是在交通灯检测方面。此外,本文已经通过赢得CARLA挑战赛的“仅用照相机”赛道来证明此方法的有效性。

论文地址:https://arxiv.org/pdf/1911.10868.pdf

标题:Can We Learn Heuristics For Graphical Model Inference Using Reinforcement Learning?(是否能应用强化学习学习图模型推理的启发规则?)(CVPR2020)了解详情

简介:组合优化是计算机视觉的常用方法。例如,在语义分割、人体姿态估计和动作识别等应用中,为解决条件随机域(CRFs)中的推理问题而编写的程序可以生成与图像视觉特征一致的结构化输出。然而,在CRFs中求解推理通常是棘手的,而近似方法在计算上要求很高,并且仅限于一元的、成对的和手工制作的高阶势形式。本文展示了可以学习程序启发式,即策略,使用强化学习解决语义分割任务的高阶 CRF 中的推理。本文的方法有效地解决了推理任务,而不会对势的形式施加任何限制。本文的方法在Pascal VOC和MOTS数据集上显示了令人信服的结果。

论文地址:https://arxiv.org/pdf/2005.01508.pdf

新工具

GST:基于加速深度强化学习的群稀疏训练方法了解详情

简介:深度强化学习(DRL)在顺序决策问题上取得了显著的成功,但要获得如此好的学习效果需要较长的训练时间。为了解决这个问题,诸多研究学者已经提出了许多并行和分布式DRL训练方法,但很难在资源有限的设备上利用它们。为了加速真实边缘设备中的DRL,必须解决由于大重量事务而导致的内存带宽瓶颈。然而,先前的迭代剪枝不仅在训练开始时表现出较低的压缩率,而且使得 DRL 训练不稳定。为了克服这些缺点,本文提出了一种新颖的DRL训练加速权值压缩方法,称为群稀疏训练(GST)。GST选择性地利用块循环压缩,在DRL训练的所有迭代过程中保持较高的权重压缩比,并通过奖励感知修剪动态自适应目标稀疏性,以实现稳定训练。由于这些功能,GST实现了25 \%p∼在 TD3 训练的 Mujoco Halfcheetah-v2 和 Mujoco humanoid-v2 环境中,平均压缩率比没有奖励下降的迭代修剪方法高 41.5 \%p。

论文地址:

https://arxiv.org/pdf/2101.09650.pdf

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

 

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值