论文链接:https://lecar-lab.github.io/flying_hand/static/pdf/flying_hand.pdf
项目链接:https://lecar-lab.github.io/flying_hand/
0. 简介
在机器人技术飞速发展的今天,无人空中操纵器(UAMs)凭借其在高空复杂任务中的巨大潜力,正逐渐改变传统行业的作业模式。无人机辅助的高空设备维护、桥梁检测等应用可以大幅降低人力成本并提升作业安全性。然而,现有的空中操作研究往往面临一个关键问题:大多数平台和控制算法都是为特定任务量身定制,这极大地限制了技术的通用性和跨任务适应能力。
图1. 所提出的框架和系统能够精准且稳健地完成多种典型的空中操作任务,例如(a) 写下“2025”,(b) 插钉入孔,© 拿取与放置,以及(d) 更换灯泡。
例如,看似简单的更换高塔灯泡任务,实际涉及抓取、旋转、插入等多个复杂操作,对系统通用性提出了很高要求。为突破这一瓶颈,来自CMU的研究团队提出了创新的统一空中操作框架——Flying Hand,通过以末端执行器为中心的设计理念,实现了无人机的高精度遥操作能力。
1. 主要贡献
Flying Hand框架的核心创新在于引入了以末端执行器为中心的接口,巧妙地将高层决策与底层控制进行解耦,主要贡献包括:
-
统一的空中操作框架:设计了一种以末端执行器为中心的框架,解耦了高层策略与底层控制,提高了系统通用性和跨任务能力
-
高精度全身控制:结合模型预测控制(MPC)和L1自适应控制,实现了末端执行器的高精度轨迹跟踪,有效应对模型不确定性和外部扰动
-
多功能任务执行能力:验证了系统在空中书写、精密插孔、抓取放置、更换灯泡等多种复杂任务中的有效性
-
首次将模仿学习引入空中操作:开创性地将模仿学习方法应用于空中操作,实现了从人类经验中自主学习操作策略的能力
2. 相关工作
空中操作研究已有一段时间的发展历程,但存在一些关键限制:
2.1 传统空中操作系统
空中操作领域的研究历程可追溯至十多年前,早期主要集中于将机械臂与传统四旋翼无人机结合的尝试。这些初代系统如Yale的Yale Aerial Manipulator和宾夕法尼亚大学的四旋翼+机械臂原型,仅能执行简单的推拉等基本操作。这些系统面临显著挑战:机械臂运动会产生反作用力矩,直接影响飞行平台的稳定性。研究者们曾提出多种补偿策略,包括NASA JPL的阻抗控制方法和ETH的模型预测控制方法。然而,传统四旋翼平台的固有限制使其无法在保持特定姿态的同时实现任意位置控制,这极大地制约了系统的操作能力。
2.2 全驱动无人机
为克服传统四旋翼的局限性,全驱动无人机技术应运而生。这类系统通过特殊布局和倾斜的多个旋翼,实现六自由度力和力矩的独立控制。主要设计包括固定倾角推进器(如ETH的Voliro)和可变倾角推进器设计(如KAIST的OmniDrone)。研究者们针对不同应用场景开发了多种控制方法,如接触力控制、力/位置混合控制等。尽管全驱动平台提高了操作灵活性,但现有研究大多仍局限于特定任务场景,缺乏能够支持多样化任务的统一框架。
2.3 遥操作与自主操作
在控制方式上,空中操作系统主要分为遥操作和自主操作两类。传统遥操作界面通常采用直接关节控制方式,操作者需要同时管理无人机位置/姿态和机械臂关节角度,这不仅认知负担重,还需要专业训练。一些研究尝试引入共享自主权技术,如自动化低层级平台稳定控制,但高层级任务规划仍然依赖人工。而现有的自主空中操作系统多基于预定规则和轨迹,缺乏应对动态场景的适应性和泛化能力。虽然强化学习和模仿学习已在地面机器人中广泛应用,但在空中操作领域的探索仍处于起步阶段。
模仿学习作为机器人控制策略学习的有效方法,已在地面操作领域取得显著成果。比如Berkeley的DexMV和Stanford的RT-1系统通过模仿学习实现了复杂的操作技能。近期研究提出的DAPG、ACT等方法大幅提高了从有限数据学习控制策略的效率,而结合视觉、触觉等多模态感知的融合进一步提升了机器人操作的精度和适应性。然而,尽管这些技术在地面机器人领域表现出色,在空中操作系统中的应用研究仍然非常有限。Flying Hand框架通过提出末端执行器中心的接口,首次系统性地解决了以上问题,实现了高层策略与底层控制的有效解耦。
3. 核心算法
Flying Hand框架由三个关键组件构成,形成了完整的技术体系:
图2. 所提出的以末端执行器为中心的空中操控框架包括无人机平台、以末端执行器为中心的全身模型预测控制(MPC),以及高层策略,其中包含以末端执行器为中心的遥操作接口和基于模仿学习的框架,使用了带有变换器的动作块(Action Chunk with Transformer, ACT)[14]。高层策略,无论是人类遥操作还是学习到的自主策略,都会将目标末端执行器状态发送给以末端执行器为中心的MPC,后者随后生成电机指令以供无人机平台执行。
3.1 通用硬件平台
Flying Hand采用了一个全驱动六旋翼无人机作为基座,以Tarot680为基础架构,搭配6个KDE 4215XF电机与12英寸2叶螺旋桨。关键特性包括:
- 全驱动设计:能独立控制六自由度的力和力矩,为精确空中定位提供保障
- 双重计算系统:Intel Nuc负责复杂运算,PX4自动驾驶仪处理飞行信息
- 4自由度机械臂:配备三个俯仰关节和一个滚动关节,由Dynamixel伺服驱动
- 模块化末端执行器:可根据任务需求更换不同工具
- 综合感知系统:结合运动捕捉/IMU、关节编码器和RGBD相机
这种配置为各种空中操作任务提供了必要的工作空间和负载能力,同时保持了系统的灵活性。
图3. 城市空中交通(UAM)硬件系统设计,展示了关键组件:
(1) 完全驱动的六旋翼作为基础结构,(2) 4自由度操纵器,(3) 用于基于视觉的感知和反馈的英特尔RealSense相机,以及(4) 用于物体交互的末端执行器夹具。右侧图中的框架标记表示与系统相关的坐标轴。
3.2 末端执行器中心的全身控制器
Flying Hand的控制系统采用了创新的末端执行器中心设计理念,通过模型预测控制和L1自适应控制相结合的方法实现了高精度全身协调控制。这一框架定义了世界坐标系、无人机体坐标系、机械臂基座坐标系和末端执行器坐标系,构建了包含末端执行器位置/姿态、无人机速度和机械臂关节角度的统一状态表示。模型预测控制器在有限时间范围内优化目标函数,同时考虑系统动力学约束、状态约束和控制输入约束。L1自适应控制器则负责实时估计和补偿未知干扰,包括无人机运动控制中的外部扰动和机械臂关节控制中的建模误差。这种控制策略有效应对了机械臂运动产生的反作用力矩和模型不确定性,确保了末端执行器的高精度轨迹跟踪。
3.3 高层策略模块
在高层策略方面,Flying Hand支持两种操作模式:遥操作和基于模仿学习的自主操作。
遥操作模式中,操作者通过游戏手柄直接控制末端执行器的位置和方向,系统提供实时RGB图像和3D渲染的目标轨迹作为视觉反馈。这一设计大幅降低了操作难度,即使对新手操作者也容易上手。
自主操作模式采用基于Action Chunk with Transformer(ACT)的模仿学习方法,使用条件变分自编码器将动作序列和联合观察压缩为潜在风格变量,通过编码RGB图像和状态信息,由Transformer解码器生成末端执行器轨迹命令。
这种基于末端执行器中心接口的学习策略,使模型能够专注于任务目标而非底层运动控制细节,极大地提高了学习效率和任务执行成功率。
4. 实验
研究团队通过一系列全面的实验验证了Flying Hand框架的有效性。在轨迹跟踪性能测试中,选取了悬停、水平圆轨迹和椭圆轨迹三种代表性参考轨迹,将Flying Hand框架与两种基线方法(仅使用MPC的"w.o. L1"和基于逆运动学PID控制的"w.o. MPC")进行对比。实验结果表明,Flying Hand框架在悬停任务中的均方根误差仅为1.00±0.11cm,显著低于基线方法。在动态轨迹跟踪中也表现出色,充分证明了L1自适应控制在补偿模型不确定性和外部扰动方面的显著效果,极大提升了末端执行器的轨迹跟踪精度。
图4. 空中操控器在椭圆轨迹下的末端执行器跟踪性能。跟踪结果表明,未使用模型预测控制(w.o. MPC)的基线表现出显著的跟踪滞后,而未使用L1控制(w.o. L1)的基线则因模型不匹配而遭受静态跟踪误差。
为展示系统在实际应用中的通用性和适应性,研究团队设计了一系列典型空中操作任务。在空中书写实验中,系统能够在白板上精准写出"2025"字样;在旋转阀门测试中,能够准确抓握并操作模拟工业阀门;在抓取与放置任务中,能够成功拾取并移动不同形状的物体;最复杂的更换灯泡实验中,系统成功完成了涉及卸下旧灯泡和安装新灯泡的完整操作流程。这些实验充分验证了Flying Hand框架在多样化任务场景中的卓越表现,展示了其作为统一空中操作框架的巨大潜力。
图9. 空中遥操作操控任务。我们的目标包括:1) 空中书写:无人机使用马克笔在白板上写下“2025”。2) 旋转阀门:无人机抓住手柄并旋转阀门一圈。3) 拾取与放置:无人机抓取一个物体并将其重新放置到指定区域。
在模仿学习方面,研究者们在MuJoCo仿真环境中比较了采用末端执行器中心接口和传统关节空间接口进行策略学习的效果。实验设计了插孔、旋转阀门、抓取放置、开抽屉取物等测试任务,两种策略在相同训练数据集上学习。结果显示,基于末端执行器中心接口的策略在50次测试中成功完成了48次任务,明显优于关节空间策略的38次。这一结果表明,末端执行器中心策略能够更有效地从人类演示中学习操作要领,避免了关节空间转换导致的误差累积和效率损失,为空中操作系统引入先进学习算法提供了可行途径。
图11. Mujoco仿真中的任务设置,包括(a) 插销入孔任务;(b) 旋转阀门;© 拾取与放置;以及(d) 一个长时间跨度的打开与取回任务。
5. 结论
Flying Hand框架成功克服了现有空中操作系统任务专用性强、通用性差的局限性。通过末端执行器中心(ee-centric)的设计理念,实现了高层策略与底层全身控制的有效解耦,提升了系统的灵活性和适应性。
该框架的三大核心组件——全驱动无人机与机械臂平台、结合MPC和L1自适应控制的高精度控制器、支持遥操作和模仿学习的高层策略接口——共同构成了一个统一、通用的空中操作技术体系。
实验结果证明,Flying Hand框架不仅显著提高了末端执行器的跟踪精度,能够完成多样化复杂任务,还成功地将模仿学习应用于空中操作场景,实现了机器人自主执行任务的能力。这为空中操作技术的标准化、通用化和智能化发展提供了重要途径,也为未来更复杂的空中作业应用奠定了基础。