Deep Reinforcement Learning for High Precision Assembly Tasks-CSDN博客

本文链接：https://blog.csdn.net/qq_29176963/article/details/91044328

本篇论文的目的是控制机械臂在组件装配精度高于机器人控制精度的情况下实现轴孔的装配。本文使用双层LSTM网络结构来作为状态-行为价值函数Q的近似，输入为机械臂的力-力矩传感器反馈信号以及机械臂末端的近似位置，输出为机械臂末端三个轴上施加的力与两个方向上姿态的旋转角度。从演示视频来看效果还是很不错的。

该论文实验中有一个前置条件：假设轴已经被抓且与孔板相接触。那么这篇论文其实就是分两步走：一是运动到已知的孔中心点处，二是进行插入装配。总体来说所提出方法较为简单，仍然是那个DQN，实验的前置条件也较为严格。但不管怎样算是使用RL方法解决了超精密装配的问题。

文章目录

Introduction
Problem Formulation
Reinforcement learning with long short term memory
Experiments

Introduction

背景：

机械部件的高精度装配要求精度超过机器人精度；
经典的编程方法是通过使用称为“示教器”的控制盒来定义关键位置和运动，从而教导机器人执行工业装配任务。这种在线编程方法通常是繁琐且耗时的。即使在编程之后，由于环境变化，调整用于将机器人部署到新工厂线的参数也需要很长时间；
离线编程或模拟可以减少实际机器人的停机时间，但总体上可能需要比在线编程更长的时间，包括在机器人上开发模拟和测试的时间。很难在仿真模型中以100％的准确度来表示包括环境变化在内的现实世界；
相机和编码器对于使用RL进行机器人抓取任务的十分重要，但这些方法都不能直接应用于高精度工业应用。

本文未使用超精密的力-扭矩传感器或摄像机，仅使用了工业机器人中普遍存在的力和位置传感器。

Problem Formulation

选择高精度圆柱形桩孔作为力控机器人装配的目标任务。这项任务大致可分为两个主要阶段：

搜索： 机器人将栓钉中心放置在孔中心的间隙区域内。
位置控制器很难将栓钉和孔设置为几十 $μ m$ 的精度，视觉伺服也是不切实际的，因为相机分辨率有限，或在组装期间相机被内部部件遮挡。例如，在传动中啮合齿轮和花键的情况下。在本文中，我们使用一个常见的6轴力 - 扭矩传感器来学习相对于桩位置的孔位置。
插入： 机器人调整栓钉相对于孔方向的方向，并将栓钉推到所需位置。
我们将一个挂钉插入一个间隙非常小的10微米的孔中。即使对于人类来说，这种高精度插入也非常困难。这是因为人类不能如此精确，并且钉子通常会在插入的最初阶段卡住。机器人也很难以比其位置精度更紧密的间隙进行插入。因此，机器人需要学习以使用力 - 扭矩传感器信息执行该精确插入任务。

Reinforcement learning with long short term memory

本文采用了多层LSTM网络来作为状态-行为价值函数Q的近似，网络结构如下所示：

Loading...
输入为force-torque传感器产生了三个方向的力与两个方向的力矩以及两个方向上的舍入位置坐标 $\widetilde{P}$ 。

定义 $P$ 为通过运动学正解（机械臂关节角度）得到的peg的精确位置。考虑到hole的安装位置也可能存在偏差，为了增强算法对位置误差的鲁棒性，使用下图方法对peg的精确位置进行舍入得到舍入位置 $\widetilde{P}$ 。
Loading...
hole的中心坐标可能不在所规定的位置 $(0, 0)$ 处，引入位置误差 $c$ ，使hole的中心坐标在范围 $(- c, c)$ 内。则当peg坐标值在 $(- c, c)$ 时舍入为0，当值在 $[c, 2 c)$ 时舍入为 $c$ ，以此类推。这为网络提供了辅助信息，以加速学习收敛。