Kinematic Motion Retargeting via Neural Latent Optimization for Learning Sign Language解析
论文链接:https://ieeexplore.ieee.org/document/9714016?denied=
论文代码:https://github.com/0aqz0/neural-retargeting
论文出处:2022 RA-L
论文单位:浙江大学
摘要
- 从人的演示到机器人的运动重定向是降低机器人编程专业要求和工作量的有效途径,但也面临着人与机器人差异带来的挑战。
- 传统的基于优化的方法耗时且严重依赖于良好的初始化,而最近使用前馈神经网络的研究对未见运动的泛化能力差。
- 此外,它们忽略了人类骨骼和机器人结构中的拓扑信息。
- 在本文中,我们提出了一种新的神经潜在优化方法(neural latent optimization approach ) 来解决这些问题。
- 潜在优化利用解码器在潜在空间和机器人运动空间之间建立映射。
- 然后,通过搜索最优潜在向量,得到满足机器人约束的重定向结果。
- 除了潜在优化之外,神经初始化还利用编码器提供更好的初始化,以实现更快更好的优化收敛。
- 为了更好地利用拓扑信息,将人体骨架和机器人结构建模为图形(graphs)。
- 我们进行了中国手语的重定向实验,该实验涉及两只手臂和两只手,并且对关节之间的相对关系有额外的要求。
- 实验包括将各种人类演示重新定位到虚拟环境中的YuMi、NAO和Pepper,以及真实环境中的YuMi。验证了该方法的效率和准确性。
1. 简介
-
运动重定向(Motion Retargeting) 通过学习人类演示来简化机器人编程,可以有效地降低对编程专业知识的要求,实现对复杂机器人动作的快速学习。
-
在本文中,我们的重点是生成运动学上可行的机器人运动,这可以帮助机器人用肢体语言表达特定的信息或情感。
-
如今,它已被应用于娱乐公园的人形机器人和用于与听障人士交流的手语机器人。
-
此外,它还可以用于博物馆或餐馆的服务机器人,通过身体动作与人互动。
-
特别的,我们对看不见的手语进行动作重定向,包括复杂的双臂运动和手指运动。
-
然而,由于人类和机器人之间的差异,这仍然是一个持续的挑战。
-
即使是与人体结构相似的类人机械臂,其自由度、运动参数和物理约束条件也存在差异。
-
再加上对相似性、安全性和快速性的各种要求,使问题变得难以解决。
-
以前的工作已经发展到解决这个问题:
(1)通过人类定义映射关系转换人类运动,但很难手动定义。
(2)基于逆运动学的方法使机器人的末端执行器位置与人的末端执行器位置保持一致,但不考虑机器人约束和其他关节的相似性。
(3)为了克服这些问题,提出了基于优化的方法来寻找运动相似度最大化并满足机器人执行能力的最优解。通常通过定义和优化带有约束的目标函数来实现。 -
虽然这些方法能够产生有希望的重定向结果,但它们必须花费大量时间来优化每个运动,并且初始化不良可能导致不良的局部最小值。
-
Latent motion 是近年来的研究热点之一,目前已有一些工作将Latent motion 应用于不同的任务。
-
Ichter et al.提出了一种基于RRT的算法,直接在**潜在空间(latent space)**中规划运动,用于视觉规划和人形机器人规划。
-
water等人提出了一种局部线性潜在动力学模型,用于从原始像素图像进行控制。
-
然而,这些方法不能直接应用于运动重定向任务,因为它们没有考虑运动相似度。
-
基于强化学习的方法倾向于通过为重定向运动设计奖励来解决问题。
-
Choi等人提出了一种数据驱动的运动重定向方法,该方法利用基于优化方法的结果作为训练的基础真理。
-
然而,由于训练数据有限,这些方法可能在看不见的运动中表现不佳,从而导致机器人运动不准确或不可行的。
-
在本文中,我们提出了一种利用神经网络和优化的优势的神经潜在优化(neural latent optimization)方法,如图1所示。
-
具体来说,我们首先将运动重定向作为一个约束优化问题,并在深度解码器的帮助下将其转化为一个无约束的问题。
-
解码器学习从隐空间到运动空间的映射。
-
对于任何看不见的motion,我们进一步寻找使目标函数最小化的最优 latent code。
-
为了加速优化过程并帮助收敛到更好的结果,我们利用深度编码器为 latent code 生成更好的初始值。
-
将人体骨架和机器人结构建模为 graphs,可以更好地利用拓扑信息,具有更好的泛化能力。图编码器和图解码器是端到端训练的。
-
据我们所知,这是第一个利用神经潜在优化从人到机器人的运动重定向的工作。
-
我们的贡献可以总结如下:
(1)结合潜在优化(latent optimization)和神经初始化(neural initialization),提出了一种新的运动重定向框架,并构建了人机运动重定向的中文手语数据集。
(2)引入潜在优化来提高对未知运动的性能,并设计神经初始化来为潜在向量提供更好的初始值,有助于更快更好地收敛。
(3)将人体骨架和机器人结构建模为graphs,可以捕获拓扑结构的固有信息,具有更好的泛化性。
2. Related Work
2.1 Learning From Demonstration
- Learning From Demonstration一直是机器人研究中的一个基本问题,并且在工业应用中具有很大的前景,因为它使机器人无需编程就可以模仿人类的技能。
- 与Learning From Demonstration方法不同,我们的目标是解决人机运动重定向问题,其中机器人模仿人类运动ÿ