[论文阅读] Learning Dexterous Manipulation Policies from Experience and Imitation

好悬给我拽开线

已于 2024-03-01 11:54:12 修改

阅读量1.9k

点赞数 42

文章标签：论文阅读

于 2024-02-29 00:04:47 首次发布

本文链接：https://blog.csdn.net/qq_33673253/article/details/136357951

版权

时间：2016/11/15

作者相关：Vikash Kumar: Senior Research Scientist in Robotics and Embodied AI (vikashplus.github.io)

基于学习的方法，用于对灵巧五指手进行非抓握操作的反馈控制
学习得到能够从预定义的初始状态开始执行任务的本地控制器
控制器是利用直接从传感器数据中学习到的局部线性时变模型locally-linear time-varying models 的轨迹优化 trajectory optimization 来构建的
- 对于有一些初始条件的初始状态，可以在模拟和物理平台上稳健地执行任务
还用两种插值 interpolation 方法来对更多的初始条件进行泛化：深度学习和最近邻 nearest neighbors
- 发现最近邻可以获得更高的性能，最近邻方法基于通过运动捕捉感知的与初始对象状态的接近度，在时变的局部控制器之间切换
- 神经网络可以只使用触觉和本体感觉反馈，而不使用关于对象的视觉反馈，并学习时不变策略
我们的工作表明:
- 基于局部轨迹的控制器可以从少量的训练数据中构建复杂的非抓握操作任务
- 这些控制器的集合可以内插以形成更多的全局控制器

Reinforcement Learning, Dexterous Manipulation, Trajectory Optimization

不依赖于手动设计的控制器，通过优化高级成本函数，以及通过构建人类提供的专家演示来自动合成控制器
学习每个控制器所需的少量数据(在物理硬件上大约60次试验)
使用ADROIT平台，带有高性能气动执行器的shadowwhand骨架
- 具有100维连续状态空间；40维连续控制空间
我们的方法可以分类为基于模型的强化学习(RL)或自适应最优控制
- 无模型和有模型的强化学习
- 自适应控制主要侧重于学习具有预定义结构的模型的参数，本质上是将系统识别与控制交织在一起
我们的方法介于两者之间，依赖于一个模型，但该模型没有任何信息预定义的结构，是从数据中学习的时变线性模型，使用通用先验进行正则化
- 将先前研究的14维状态空间拓展到这里的100维状态空间
学习的操作技巧最初表示为时变线性高斯控制器
通过遥操作演示来初始化控制器来学习更复杂的操作技能
通过两种方式进行泛化来适应任务的不同初始条件

ADROIT平台，24自由度的手安装在固定的底座上，使系统仅适用于基于手指和基于手腕的操纵策略

抓握对象：装满咖啡豆的长管，每一端都装有PhaseSpace有源红外标记用于估计对象位置和速度（线速度和角速度），它们也作为状态变量提供

所有的传感器都具有相对较低的噪声，因此在将传感器数据发送到控制器之前，我们用最少的滤波

使用我们开发的MuJoCo模拟器

用于控制气动五指手的强化学习算法推导遵循先前的工作(Levine and Abbeel 2014)

目的是学习形式为的时变线性高斯控制器
- 其中xt和ut是时间步长t的状态和动作
- 动作对应于气动阀的输入电压
算法目的：最小化在轨迹上的期望
- 其中 $\ell(\tau)=\sum_{t=1}^{T}\ell(\mathbf{x}_{t},\mathbf{u}_{t})$ 是总成本
- the expectation is under
  - 其中 $p(\mathbf{x}_{t+1}|\mathbf{x}_{t},\mathbf{u}_{t})$ 是 the dynamics distribution