每天一篇论文 295/365Residual Reinforcement Learning for Robot Control

Residual Reinforcement Learning for Robot Control
摘要

传统的反馈控制方法通过捕捉具有显式模型(如刚体运动方程)的结构,可以非常有效地解决各种类型的机器人控制问题。然而,在现代制造业中,许多控制问题涉及接触和摩擦,这是一阶物理建模难以捕捉的。因此,将控制设计方法应用于此类问题通常会导致控制器脆弱且不准确,必须手动调整以进行部署。强化学习(RL)方法已经被证明能够从与环境的交互中学习连续的机器人控制器,甚至对于包括摩擦和接触的问题也是如此。本文研究了如何将现实世界中的控制难题分解为常规反馈控制方法能有效解决的部分和用RL法解决的残差,从而解决实际控制问题。最终的控制策略是两个控制信号的叠加。我们通过训练一个代理成功地执行包含接触和不稳定对象的真实块装配任务来演示我们的方法。】

贡献

本文的主要贡献是将传统反馈控制与深度RL方法相结合的方法,如图1所示。我们的主要动机是一种适用于制造业实际控制问题的控制方法,其中RL的探索行为是一个安全问题,而深层RL的数据需求可能是昂贵的。我们对我们的方法在模拟中的块装配任务和物理硬件上进行了全面的评估。当块的初始方向有噪声时,我们设计的控制器无法解决任务,而剩余RL在3小时内成功地学习执行任务。这表明我们的方法可以有效地应用于实际的制造问题。

本文研究内容

研究了传统反馈控制方法难以解决的控制问题。然而,这些问题的结构可以用传统的反馈控制(如阻抗控制)来部分处理。控制任务的剩余部分,即必须考虑接触和外部物体动力学的部分,用RL求解。将常规控制器和RL的输出叠加,形成命令控制。本文的主要贡献是将传统反馈控制与深度RL方法相结合的方法,如图1所示。我们的主要动机是一种适用于制造业实际控制问题的控制方法,其中RL的探索行为是一个安全问题,而深层RL的数据需求可能是昂贵的。我们对我们的方法在模拟中的块装配任务和物理硬件上进行了全面的评估。当块的初始方向有噪声时,我们设计的控制器无法解决任务,而剩余RL在3小时内成功地学习执行任务。这表明我们的方法可以有效地应用于实际的制造问题。

####
我们直接在现实世界中训练一个代理来解决一个包含接触和不稳定对象的模型装配任务。左侧显示了我们的方法的概要,该方法包括将手工设计的控制器与剩余的RL控制器相结合。解决块插入任务的剩余RL的卷展栏显示在右侧。残差RL能够学习一个反馈控制器,该控制器能够适应站立模块的方向变化,并成功地完成在它们之间插入模块的任务。

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值