【Sim2real】Sim-to-Real Transfer of Robotic Control with Dynamics Randomization(动态随机化的机器人控制)

大家好,这里是一只电子喵(>^ω^<)。最近在学习和sim2real相关知识,准备记录一些阅读到的文献,新手小白第一次尝试写博客,也请大家多多指教Thanks♪(・ω・)ノ

论文原文链接:[1710.06537] Sim-to-Real Transfer of Robotic Control with Dynamics Randomization (arxiv.org)

sim2real是为了减少或消灭模拟与现实的差距(reality gap),本篇论文主要是通过随机化模拟器动态特性(Dynamics Randomization)来弥合这种“现实差距”的方法。这种适应性使策略能够推广到现实世界的动态,而无需对物理系统进行任何培训。

一、摘要

模拟环境中训练提供了丰富的数据源,并在训练过程中减少了一些安全问题。但是,模拟中开发的行为通常特定于模拟器的特征,由于建模误差,在模拟中成功的策略可能无法转移到现实世界。本文提出了一种通过随机化模拟器动态特性来弥合这种“现实差距”的方法。通过在训练过程中随机化模拟器的动态特性,我们能够开发出能够适应不同动态特性的策略,包括那些与训练时的动态特性显著不同的特性。这种适应性使得策略能够在没有物理系统训练的情况下泛化到现实世界的动态特性。我们在使用机器人手臂进行物体推动任务中展示了我们的方法。尽管仅在模拟中训练,我们的策略在实际机器人上的表现与在随机初始配置下将物体移动到目标位置时表现出相似的性能水平。

二、引入

深度强化学习(DeepRL)在解决复杂控制问题方面显示出有效性。在模拟环境中,代理被开发出来执行各种具有挑战性的任务。然而,许多在模拟中展示的能力在物理环境中尚未实现。这是由于RL算法高样本复杂性和其他物理限制,使得这些算法难以直接应用于物理系统。此外,现实世界中的RL算法部署还会带来许多安全问题。训练代理在模拟环境中是一个有前途的方法,但将策略从模拟转移到现实世界仍然面临挑战。

三、相关工作

由于RL算法的高样本复杂性和其他物理限制,仿真中展示的许多功能尚未在物理世界中复制。引导策略搜索(GPS)代表了少数能够直接在真实机器人上训练策略的算法之一。通过利用轨迹优化和学习的线性动力学模型,该方法能够在与环境的交互相对较少的情况下开发复杂的操纵技能。该方法还扩展到学习基于视觉的操纵策略。研究人员还探索了跨多个机器人的并行训练。尽管如此,到目前为止,直接针对物理机器人的培训政策的成功例子仅在相对限制的领域得到了证明。

(一)领域适配(Domain Adaptation)

将控制策略从仿真环境转移到真实世界的问题可以看作是领域适配的一种情况,即在源域中训练的模型转移到新的目标域。此类方法背后的一个关键假设是,不同的领域共享共同的特征,使得在一个领域中学习的表示和行为对另一个领域也有用。学习不变特征已经成为利用这些共性的有希望的方法。另一种方法是使用渐进网络(可以看看这篇大佬博客,里面写的很详细)将机器人手臂的策略从仿真转移到现实世界。通过重用仿真中学到的特征,他们的方法显著减少了物理系统所需的数据量。尽管这些方法很有前景,但在训练期间仍然需要目标域的数据​。

(二)域随机化(Domain Randomization)

域随机化是一类特别适用于仿真的适配技术。通过域随机化,源域和目标域之间的差异被建模为源域中的变异性。在视觉域中的随机化已被用来直接将基于视觉的策略从仿真环境转移到现实世界,而无需在训练期间使用真实图像。与以往试图通过高保真渲染来弥合现实差距的方法不同,他们的系统仅使用低保真渲染,并通过随机化场景属性(如光照、纹理和相机位置)来建模视觉外观的差异。除了随机化仿真的视觉特征外,随机化动力学也被用来开发对系统动力学不确定性具有鲁棒性的控制器。我们展示了基于记忆的策略能够在训练期间应对更大的变异性,并且更好地泛化到现实世界的动力学。与以往需要对仿真进行仔细校准以紧密符合物理系统的方法不同,我们的策略能够适应显著的校准误差。

(三)非抓取操作(Non-prehensile Manipulation)

推挤是一种非抓取操作形式,是将过大或过重的物体定位和定向的有效策略。尽管推挤引起了机器人社区的极大兴趣,但它仍然是机器人采用的一项挑战性技能。部分困难在于准确建模表面间复杂的接触动力学。诸如摩擦等特性可能在物体表面上显著变化,并且所产生的运动对接触表面的初始配置高度敏感 。已经提出了一些模型来促进规划算法 ,但它们往往依赖于实践中经常被违反的简化假设。最近,深度学习方法已被应用于训练推挤的预测模型。虽然数据驱动的方法克服了先前框架面临的一些建模挑战,但它们在训练期间需要大量的现实世界数据。这样的数据集可能收集成本高昂,对于更复杂的任务可能变得难以承受。相比之下,我们将展示可以完全在模拟中使用仅有稀疏奖励训练的自适应策略。所得的策略在部署到实际机器人上时能够容纳大的校准误差,并且还能推广到物理系统动态的变化。

四、方法

我们不是在一个特定的动态模型下训练策略,而是训练一个可以在各种不同的动态模型下执行任务的策略。在训练过程中,RL算法通常受益于精心塑造的奖励函数,这些奖励函数有助于指导代理实现任务的总体目标。但是,对于更复杂的任务来说,设计奖励函数可能具有挑战性,并且可能会使策略偏向于采用不太优的行为。另一种选择是使用二元奖励 r(s, g),该奖励仅指示在给定状态下是否满足。目标众所周知,对于大多数现代 RL 算法来说,从稀疏的二分奖励中学习是具有挑战性的。因此,我们将利用最近的一项创新,即Hindsight Experience Replay(HER)(机翻是事后诸葛亮的经验回放...这篇中文博客写的很详细),使用稀疏奖励来训练政策。

(一)任务

我们的实验是使用 7-DOF Fetch Robotics 手臂在冰球推动任务上进行的。

每集的目标 g 指定了冰球应移动到的桌子上的随机目标位置。如果冰球在目标的给定距离内,则奖励为二进制,rt = 0,否则 rt = −1。在每一集开始时,手臂被初始化为默认姿势,冰球的初始位置被随机放置在桌子上的固定边界内。

(二)状态和行为

状态通过手臂的关节位置和速度、夹持器的位置以及冰球的位置、方向、线性和角速度来表示。这些组合的特征产生了一个 52D 状态空间。策略中的操作为位置控制器指定目标关节角度。目标角度被指定为与当前关节旋转的相对偏移。这产生了一个 7D 动作空间。

(三)动力学随机化(Dynamics Randomization)

我们随机化的参数包括:

• 机器人身体中每个环节的质量

• 每个关节的阻尼

• 冰球的质量、摩擦和阻尼

• 桌子的高度

• 位置控制器的增益

• 动作之间的时间步长

• 观测噪声

总共 95 个随机化参数。观测噪声对传感器中的不确定性进行建模,并作为应用于每个状态特征的独立高斯噪声实现。虽然质量和阻尼等参数在事件过程中是恒定的,但动作时间步长和观察噪声在每个时间步长中都是随机变化的。

(四)自适应策略

自适应策略旨在根据过去的状态和动作历史来推断当前的动力学参数,从而做出更准确的决策。具体而言,利用循环神经网络(Recurrent Neural Network, RNN)处理状态和动作序列,捕捉时间上的依赖关系。自适应策略的核心思想是通过回顾历史信息来调整当前的策略,使其能够更好地适应当前的动力学环境。

(五)循环确定性策略梯度

循环确定性策略梯度是一种用于训练包含记忆的策略的强化学习算法。与传统的确定性策略梯度(Deterministic Policy Gradient, DPG)方法不同,RDPG 引入了循环结构,以处理部分可观测环境中的长时依赖关系。具体来说,策略网络不仅输入当前的状态,还输入过去一段时间的状态和动作序列,从而通过捕捉历史信息来增强决策的准确性。

  (六)网络架构

LSTM(长短期记忆网络,Long Short-Term Memory)是一种特殊的循环神经网络(RNN),用于处理和预测时间序列数据。LSTM能够捕捉长时间跨度内的信息,并解决标准RNN在处理长序列时容易遗忘或爆炸性增长的问题。LSTM在本研究中的使用,主要是为了增强策略网络的记忆能力,使其在面对复杂和变化的动态环境时,能够有效地利用历史信息,做出更准确的决策。

五、实验结果

结果在补充视频Sim-to-Real Transfer of Robotic Control with Dynamics Randomization_哔哩哔哩_bilibili中看到。

六、总结

我们演示了如何使用动态随机化来训练能够在运行时适应不熟悉的动态的递归策略。在仿真中使用随机动态的训练策略使得生成的策略可以直接部署在物理机器人上,尽管校准效果不佳。通过专门在模拟中进行训练,我们能够利用模拟器生成大量训练数据,从而使我们能够使用强大的 RL 技术,这些技术还不能直接应用于物理系统。我们对现实世界推动任务的实验表明,其性能与仿真相当,并且能够适应接触动态的变化。我们还评估了与架构和参数选择相关的设计决策的重要性,这些决策在训练期间要随机化。我们打算将这项工作扩展到更丰富的任务,并纳入更多的模式。我们希望这种方法能为开发熟练的仿真代理提供更多机会,然后能够在物理世界中部署。

----------------------------------------------手动分割线-------------------------------------------------------------------

这片论文主要讲了通过动态随机化和回顾经验重放(HER)来训练机器人控制策略的方法,并成功实现了从模拟到现实的策略转移,验证了该方法的有效性和鲁棒性,为实际应用提供了新的可能性。

但是感觉还有没有完全读懂,需要多阅读一些paper才行┭┮﹏┭┮

  • 41
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是一些Sim2Real挑战赛的学习资料: 1. Sim-to-Real Reinforcement Learning for Robotics: A Reality Gap is a challenge in robotics where models trained in simulation often fail to perform well in the real world. This paper examines the problem and proposes a sim-to-real approach to reinforcement learning for robotics. 2. Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control: This paper proposes a view-invariant visual servoing technique that can generalize well from simulated to real-world environments. 3. Sim-to-Real Transfer of Robotic Control with Dynamics Randomization: This paper introduces a method of training robots in simulation using randomized dynamics and then transferring the learned control policies to the real world. 4. Sim-to-Real Transfer for Deep Reinforcement Learning with Safe Exploration: This paper proposes a method for safe exploration in Sim2Real transfer for deep reinforcement learning. 5. Sim2Real View-Invariant Visual Servoing by Combining Simulation and Deep Learning: This paper proposes a view-invariant visual servoing technique that combines simulation and deep learning to achieve robustness to viewpoint changes. 6. Sim2Real Transfer for Robotic Manipulation: A Survey: This paper provides a comprehensive survey of the existing literature on Sim2Real transfer for robotic manipulation. 7. OpenAI Robotics: Sim2Real Transfer: This blog post by OpenAI provides an overview of Sim2Real transfer for robotics and highlights some of the challenges and opportunities in the field. 8. NVIDIA Research: Sim-to-Real Transfer Learning for Robotics: This video by NVIDIA Research provides an overview of Sim2Real transfer learning for robotics and showcases some of the recent advancements in the field. 9. Sim-to-Real Transfer of Robotic Control with Deep Reinforcement Learning: This paper proposes a method for Sim2Real transfer of robotic control using deep reinforcement learning and demonstrates its effectiveness on a real-world robotic arm. 10. Sim-to-Real Transfer of Control Policies for Robotics using Adversarial Domain Adaptation: This paper proposes a method for Sim2Real transfer of control policies for robotics using adversarial domain adaptation and demonstrates its effectiveness on a real-world robotic arm.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值