Residual Reinforcement Learning for Robot Control

Residual Reinforcement Learning for Robot Control

传统反馈控制方法通过显式模型来解决各种机器人控制问题。但在现代制造业中的很多控制问题都需要处理接触和摩檫力,而这些难以被一阶物理建模所体现(如果要使得传统反馈控制方法,比如PID调节器和计算转矩的方法对环境具有一定程度的适应性或反馈,则需要很多额外的努力),而另一个缺点是传统控制方法缺乏行为泛化。本文研究了如何解决现实世界中的复杂控制问题,将其分解为用传统反馈控制方法有效求解的部分和用RL方法求解的剩余部分,而最终的控制策略是两个控制信号的叠加。

使用强化学习(RL)可以处理传统控制器难以处理的控制问题,因为使用 RL 的控制目标可以是奖励函数而不是明确的控制动作。文中考虑是一个由全驱动机器人和机器人环境中的欠驱动物体所组成的动力系统(机器人状态表示为 s m s_m sm,物体的观察为 s o s_o so;机器人通过输入 u u u来进行控制,而物体可以直接被控制),任务训练的过程如下:

在这里插入图片描述

由机器人和物体组成的整个动力系统的离散时间运动方程可以表示为:

在这里插入图片描述

这里的状态服从代数约束。在状态转移矩阵中, A ( s m , t ) A(s_m,t) A(sm,t) C ( s o ) C(s_o) C(so)表示刚体动力学,所以它们通常在一定程度上是已知的,而耦合矩阵 B ( s m , s o ) B(s_m, s_o) B(sm,so) 通常是未知的。例如接触和摩擦力之类的物理相互作用主要影响 B ( s m , s o ) B(s_m, s_o) B(sm,so) 的表示(同时也应用于对 s m s_m sm s o s_o so起作用的代数约束)。所以使用传统控制方法来决定控制 s o s_o so u u u是非常困难的。直接设计传统控制方法的另一个困难是,对于许多控制目标,状态 s o s_o so需要满足不能表示为与期望状态的偏差(误差)的条件。而在 RL 中通过奖励函数来指定目标,而不是直接设计一个反馈控制系统。奖励函数可以同时却决于 s m s_m sm s o s_o so

在这篇文章中使用了基于值函数的 RL 方法(off-policy方法,具有很高的采样效率),回报表示为 R t = ∑ i = t T y ( i − t ) r i R_t=\sum^{T}_{i=t} y^{(i-t)}r_i Rt=i=tTy(it)ri,算法学习的策略 u t = π ( s t ) u_t=\pi(s_t) ut=π(st) 的目标是在有限时间步 T T T 内最大化期望回报 J = E r i , s i ∼ E , a i ∼ π [ R 0 ] J=\mathbb{E}_{r_i,s_i\sim E,a_i \sim \pi} [R_0] J=Eri,siE,aiπ[R0] 。状态动作价值函数为:

Q π ( s t , u t ) = E r i , s i ∼ E , u i ∼ π [ R t ∣ s t , u t ] = E r t , s t + 1 ∼ E [ r t + γ E u t + 1 ∼ π [ Q π ( s t + 1 , u t + 1 ) ] ] Q^{\pi} (s_t, u_t)=\mathbb{E}_{r_i,s_i \sim E, u_i \sim \pi}[R_t \mid s_t,u_t]=\mathbb{E}_{r_t,s_{t+1}\sim E}[r_t + \gamma \mathbb{E}_{u_{t+1}\sim \pi}[Q^{\pi}(s_{t+1},u_{t+1})]] Qπ(st,ut)=Eri,siE,uiπ[Rtst,ut]=Ert,st+1E[rt+γEut+1π[Qπ(st+1,ut+1)]]

控制系统由两部分组成,第一部分以传统的反馈控制理论为基础,对 s m s_m sm函数中的所有奖励项进行最大化。RL 方法用于叠加并最大化函数 s o s_o so的奖励项。

考虑奖励函数形式:

r t = f ( s m ) + g ( s o ) r_{t}=f(s_m) + g(s_o) rt=f(sm)+g(so)

f ( s m ) f(s_m) f(sm) 被假设为一个函数,表示机器人状态的几何关系,如欧几里德距离或期望轨迹。第二项 g ( s o ) g(s_o) g(so) 可以是一般类函数。在建模的装配任务中, f ( s m ) f(s_m) f(sm)是机器人夹持器在站立砖块之间移动的奖励, g ( s o ) g(s_o) g(so)是保持砖块直立并保持其原来位置的奖励。 f ( s m ) f(s_m) f(sm) 容易通过传统控制器先验的任何环境交互进行优化,而 g ( s o ) g(s_o) g(so) 更适合使用 RL 控制器进行学习。控制器的动作表示为:

u = π H ( s m ) + π θ ( s m , s o ) u=\pi_{H}(s_m)+\pi_{\theta}(s_m, s_o) u=πH(sm)+πθ(sm,so)

其中 π H ( s m ) π_H(s_m) πH(sm)为人设计的控制器, π θ ( s m , s o ) π_θ(s_m, s_o) πθ(sm,so)为通过θ参数化的学习策略,并通过RL算法进行优化,以使任务的期望收益最大化。剩余(残差)控制器 π θ ( s m , s o ) π_θ(s_m,s_o) πθ(sm,so) 被用于最大化奖励 g ( s o ) g(s_o) g(so)

算法

使用了TD3(twin delayed deep deterministic policy gradients)算法的变体。TD3是一种基于深度确定性策略梯度(DDPG)算法[3]的基于值的连续控制RL算法。与DDPG相比,TD3 具有稳定,采样效率高,需要很少的手工调优的特点。

在这里插入图片描述

在实验中引入了控制的噪声: U t ′ = u t + N ( μ , δ 2 ) U^{\prime}_t=u_t + \mathcal{N}(\mu, \delta^2) Ut=ut+N(μ,δ2).

原文链接:
Residual-Reinforcement-Learning-for-Robot-Control-|-IEEE-Conference-Publication-|-IEEE-Xplore

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值