每天一篇论文 310/365 Survey of Model-Based Reinforcement Learning Applications on Robotics

Survey of Model-Based Reinforcement Learning Applications on Robotics

基于模型的强化学习在机器人的应用

摘要

强化学习是机器人学习新任务的一种很有吸引力的方法。相关文献提供了大量的方法,但同时也清楚地表明了在现实环境中也有许多挑战。目前的预期提高了对适应性机器人的需求。我们认为,采用基于模型的强化学习,可以扩展机器人系统目前有限的适应性特征。此外,与无模型方法相比,基于模型的强化学习具有更适用于实际用例的优点。因此,在本综述中,涵盖了机器人学中应用的基于模型的方法。我们根据最优策略的推导、返回函数的定义、转换模型的类型和学习任务对它们进行分类。最后,我们讨论了基于模型的强化学习方法在新应用中的适用性,同时考虑到算法和硬件的最新进展。

机器人强化学习原理
RL与其他类型的机器学习的主要区别在于,学习过程涉及到agent与环境之间的交互,因此agent通过直接从环境中收集经验来学习期望的任务,而不需要外部教师。但是,这两个组件(代理和环境)之间的区别并不总是简单的,而是取决于应用程序。例如,在双足步行和无人机控制等应用中,假设环境中包括机器人的电机。
机器人的状态可以用连续或离散的方式来描述。在每个状态下,机器人控制器执行一个动作(电机命令),让其状态的改变。这些动作由规则函数导出的,在确定情况下,该函数将状态对应到单个作用。在随机情况下,规则函数依赖于随机变量,对应关系被写成作用上的概率分布。
在这里插入图片描述
强化学习算法的目标是寻找一个定义的回报函数期望收益最大化的策略。代理的回报可以乘一个系数,并在有限或无限的时间范围内计算。当学习的任务有一个已知的结束状态时,使用有限水平,否则使用无限函数更合适。
机器人和环境交互用MDP(Markov Decision Process ) .其中是概率机器人的状态,是动作,是机器人在当前状态下执行动作后预测改变后的状态,是当执行动作后得到估计状态后的期望的奖励。最后,是奖励值的调节系数。
在这里插入图片描述
在这里插入图片描述

RL分类

RL方法主要分为两类:无模型(也称为直接)方法和基于模型(也称为间接)方法。基于模型和无模型RL的主要区别在于是否采用了机器人与环境之间交互作用的模型。在无模型方法中,没有一个模型,因此通过与物理系统的试错法得到奖励和最佳执行动作。在基于模型的方法中,存在一种用于推导奖励和最优动作的过渡动力学模型。因此,在模型中对策略进行了优化,并在物理系统中应用了最优策略。

无模型方法吸引了最广泛的科学兴趣,但是用于推导最优策略的采样轨迹在实际机器人上可能是一个缺点。另一种方法是使用基于模型的方法。在这种情况下,最优策略是基于对应于机器人动力学表示的前向学习模型的内部模拟而导出的。这一特性显著减少了机器人与其环境之间的物理相互作用,从而显著减少了机械磨损。另一方面,它的主要缺点是基于模型的RL算法在很大程度上依赖于模型精确表示过渡动力学的能力。表1总结了这两类RL算法的优缺点。

机械臂强化学习

任务领域从外科机器人到欠驱动机械手的运动控制[5–12,15,24,28,32,62,65,67,68]。[24]中的作者训练了两个伯克利手术机器人,以高速完成打结任务。此外,存在作者在击球任务上训练机器人操作器的应用[ 5, 8, 11,68 ]。在[5,8]中,使用的平台是一个具有弹簧关节的顺应式仿生机械手。状态空间是连续的,包含每个关节的位置和速度,而动作空间是三维的,包含施加的力矩。在这两种情况下,机器人都被训练来执行与乒乓球相关的任务。此外,在[11]中,一个3自由度的机器人被训练来进行羽毛球摆动。学习执行机械手的运动控制已应用于多种平台,如欠驱动机械手[7,15,28]、低自由度机械手(2或3自由度)[6,7,9,10]和更复杂的高自由度系统[12,32,67]。学习的任务包括位置控制[6,7,10,15]、用PR-2机器人灌注[33]、摆锤摆动[28,32]和更复杂的避障操作任务[12,62]。在大多数应用中,机械手的状态空间是连续的,由每个关节的位置和加速度来描述。作用空间也是连续的,对应于作用在驱动关节上的力矩。基于模型的RL在机械手上的应用分类如图10所示。

发布了132 篇原创文章 · 获赞 10 · 访问量 7744
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览