Reinforcement Learning Tracking Control for Robotic Manipulator With Kernel-Based Dynamic Model
摘要
强化学习(RL)是一种通过与环境交互来获得最优控制策略的有效学习方法。然而,RL在执行连续控制任务时面临许多挑战。本文在不需要了解和学习机械手动力学模型的情况下,提出了一种基于核函数的RL动力学模型。另外,通过核函数采样形成一个新的耦合函数来描述机器人的RL控制问题。在该算法中,根据跟踪控制的特点定义了一个奖励函数,以加快学习过程,然后提出了一种基于核转移动态模型的RL跟踪控制器。最后,提出了一个评价系统来评价该策略对RL控制任务的优劣。仿真结果表明,与其他学习算法相比,该方法能有效地完成机器人的跟踪任务,在较小的力/力矩输入下获得相似甚至更好的跟踪性能,证明了该算法的有效性和有效性。
无模型和有模型的强化学习
虽然RL已被广泛地研究和大量的RL方法被开发并被广泛用于执行控制任务,但仍然存在一些问题。为了实现良好的性能,无模型的RL(MFRL)算法(不学习控制系统的动态模型以学习最优控制策略)必须通过与环境交互来进行耗时的训练和高层次的样本复杂度。
对于基于模型的RL(MBRL)方法(通过动态模型或动态模型逼近器有效地学习最优控制策略),它们可以通过函数逼近器在少量样本的基础上有效地学习动力学;然而,在非线性系统或高维空间中,例如机器人操作器,这些方法不能像在简单的场景中那样有效地工作。
本文旨在借鉴无模型方法和基于模型算法的优点,为机器人跟踪控制问题开发一种RL控制器。本文的主要贡献是在不了解和学习机械手动力学模型的情况下通过核函数采样建立元组来表示RL跟踪控制问题,然后提出一种MBRL算法来完成机器人的跟踪控制任务。
本文主要工作
首先,通过核函数采样建立了基于核的过渡动力学模型P a,并设计了相应的状态sa和奖励ra,形成了描述机器人RL系统的新元组(sa,a,pa,ra,γ)。
然后,利用MBRL方法搜索最优控制策略。
最后,描述了一个评价系统来评价在每次迭代中获得的最优控制策略的质量,并加速学习过程。
仿真结果表明,该算法与基于核函数的过渡动态模型能够有效地协同工作,跟踪性能明显优于转矩输入较小的基准方法。