起猛了!模型预测控制(MPC)也能用在具身智能中?

点击下方卡片,关注“具身智能之心”公众号

>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。


模型预测控制(MPC)是一种在复杂机器人系统动态约束下的强大反馈控制工具,通过在有限规划时域内优化近似动力学模型和成本函数,求解在线执行时遇到的每个状态的局部最优策略。在机器人操作领域,它可用于处理任务空间(如到达特定姿态、避免碰撞)和关节空间(如关节限制、奇异点避免)的成本优化问题。

然而,MPC 存在一些技术瓶颈:在调参方面,其参数调整较为困难,传统方法难以直接从调参参数预见控制器的闭环行为,且对于不同的任务和系统,需要大量的试验和经验来确定合适的参数,例如在机器人操作臂控制中,不同的目标函数权重选择会对控制效果产生显著影响,且在面对模型不匹配时,调整参数变得更加复杂。在约束处理上,尽管能够处理一些约束,但确保硬约束的满足具有挑战性,特别是在采样 - 基于的 MPC 算法中。此外,MPC 的性能受动力学模型质量和优化时域长度的限制,在实际应用中,获取准确的动力学模型往往较为困难,而较短的优化时域可能导致次优的控制决策。

本期具身智能之心总结了几篇MPC的论文,针对以上难题给出解决方案,一起看看吧~

内容出自国内首个具身智能全栈学习社区:具身智能之心知识星球,这里包含所有你想要的。

迈向可扩展的多机器人控制:分布式MPC中的快速策略学习

在多机器人系统(MRS)领域,实现最优协调是一个关键的大规模最优控制难题。传统的分布式模型预测控制(DMPC)方法在处理非线性大规模 MRS 时面临困境,因其依赖数值优化工具在线计算局部控制序列,计算量巨大且缺乏可扩展性。同时,强化学习(RL)虽在机器人控制方面取得一定进展,但在多机器人控制场景下,训练可扩展性、样本效率及闭环保证等方面仍存在诸多挑战。本文提出了分布式学习预测控制(DLPC)框架。在模型框架方面,针对 MRS 中机器人的动力学模型,基于已有合作 DMPC 公式构建问题,通过分解优化问题,采用分布式策略学习算法求解。具体通过分布式在线 actor - critic 学习实现,在每个预测区间内逐步向前执行策略学习,结合后退时域优化策略更新控制策略,并利用终端惩罚矩阵保证稳定性。此外,还设计了基于力场的安全策略学习方法,应对状态和控制约束下的安全问题。

实验结论显示,该方法能够高效地在线学习近最优控制策略,可扩展性强,能处理规模达 10000 单位的 MRS。在不同计算平台上,计算负载随机器人规模呈线性增长。所学策略具有良好的转移能力,从 2 个机器人训练得到的策略可有效部署到 1000 个机器人上,且在实际的轮式机器人和多旋翼无人机实验中表现出色,在多种任务如编队控制、避障等方面均能实现有效控制,相比传统数值 DMPC 方法,计算效率显著提高,为大规模 MRS 的高效控制提供了新的可行方案。

c4c9ff9abc1a08bddf2bf956ac0ed8bb.png eae2f2261c3a8eefb53006b4c9a7ba56.png

多轴转弯驱动AMR的扫掠体积感知轨迹规划和MPC跟踪

在物流领域,多轴自主移动机器人(AMRs)至关重要,但多轴车辆转弯时的扫掠体积问题成为关键挑战,传统为标准车辆设计的系统难以应对,增加了安全风险。本文提出一种创新框架,将扫掠体积最小化与有符号距离场(SDF)路径规划及独立轮转向的模型预测控制(MPC)相结合。在轨迹规划方面,先用 A*算法生成初始路径,再经 MINCO 进行首次优化,通过最小化轨迹能量和时间消耗等平滑轨迹;接着进行二次优化,综合考虑能量、时间、安全距离和扫掠面积等因素,其中利用 SDF 计算障碍物安全距离相关成本函数,通过特定计算方式得出扫掠体积的成本函数及梯度并优化。在轨迹跟踪上,建立以车辆几何中心为原点的坐标系,得出离散化车辆控制状态空间方程,基于此构建目标函数并转化为二次规划问题求解,进而确定车辆最优控制向量,再计算各车轮的转速和转向角。

实验通过在 Gazebo 中设置街道地图模拟 5 轴转向驱动 AMR 车辆左转弯场景,以超出最小扫掠体积、规划时间、跟踪误差为评估指标。结果显示,与经典方法、分层方法和 SVSDF 方法相比,该方法的扫掠面积最小,仅为 23.14 m²,规划时间最短为 1.17 秒,且横向跟踪误差在 ±0.04 m 内,航向角误差在 ±0.03°内,显著提高了多轴 AMRs 在受限环境中的机动性、安全性和效率,为自主重型车辆的发展提供了有效方案。

ae9b88463bf3e7fe82628d045f791989.png 50e218bdb86c14b3a984167348c0e5dd.png

VLMPC:用于机器人操控的视觉-语言模型预测控制

在机器人操作领域,模型预测控制(MPC)虽能预测系统未来状态,但缺乏环境感知能力,在复杂场景易失效;而大规模视觉语言模型(VLM)虽有强大感知与推理能力,但现有结合二者的方法仍存在不足,如未充分考虑机器人未来状态、视觉预测模型受数据集限制等。本文提出视觉语言模型预测控制(VLMPC)框架,在条件动作采样模块中,依据目标图像或语言指令以及当前观察,利用 VLM 生成采样分布并采样出候选动作序列,还利用历史信息缓解 VLM 幻觉现象。接着,通过构建的 DMVFN - Act 动作条件视频预测模型,依据候选动作序列预测未来帧。最后,设计包含像素距离成本和 VLM 辅助成本的分层成本函数,并通过 VLM 切换器综合评估视频预测结果,选择最优动作序列,机器人执行序列中的第一个动作,后续动作用于辅助采样。

实验中,VLMPC 采用 Qwen - VL 和 GPT - 4V 作为 VLM,对 DMVFN - Act 视频预测模型进行两阶段训练。在模拟环境实验里,于 RoboDesk 环境和 Language Table 环境分别与 VP2 等方法对比,结果显示 VLMPC 在多种任务中表现更优,如在 RoboDesk 环境的复杂任务中推理和规划能力突出,在 Language Table 环境的任务中成功率更高。在真实世界实验中,使用 UR5 机器人完成四项任务,尽管部分任务因存在干扰物体或多个子目标而成功率较低,但总体仍表现出对新物体和场景的良好泛化能力。通过消融研究还证明了各核心组件的有效性。总之,VLMPC 在模拟和真实场景表现良好,但视频预测和计算成本方面存在局限,未来需改进。

202cb273e401d8725f5486f782949c82.png

移动机器人和车辆模型预测控制有效规避椭球障碍物

在移动机器人的实际应用中,碰撞避免至关重要。通常,在受限环境下的全局运动规划由高级控制方案处理,但将局部碰撞避免集成到机器人运动控制中具有显著优势,能简化结构、提升效率并解决关键情况。然而,多数控制方法难以高效处理碰撞约束,虽模型预测控制(MPC)有潜力,但障碍物带来的约束评估困难且非凸,实时求解复杂。本文针对轮式移动机器人,提出一种将碰撞避免直接集成到 MPC 的方法。在模型框架方面,首先基于已有方法构建了用于检测两个(任意维度)椭球体是否重叠的高效测试方法,通过定义新的椭球体集合及相关参数,得出可判断重叠情况的度量指标,并针对二维情况给出具体计算方式。在 MPC 控制器中,考虑一般形式的机器人或车辆运动学方程,将其离散化后构建最优控制问题,在状态约束中为每个障碍物和离散时间步添加基于上述重叠测试的约束,确保机器人与障碍物不发生碰撞。

实验通过模拟和硬件实验验证。模拟中对全向移动机器人和差速驱动移动机器人分别设置场景,结果显示控制器能成功引导机器人避开障碍物到达目标点,同时给出了重叠度量指标和 OCP 求解时间。硬件实验中,实际机器人和障碍物为椭球体形状,利用运动捕捉系统跟踪,机器人成功避开所有障碍物,虽存在因模型失配、延迟和测量误差等导致的约束不完全满足情况,但通过调整求解器的约束违反容忍度等方法可有效防止实际碰撞,证明了该方法在实际硬件中的可行性。

9e45155655bbb2face4b857c0dc50635.png

从瞬时控制到预测控制:一种更直观、更可调的机器人MPC公式

在机器人操作臂控制领域,传统瞬时控制方法虽能应对干扰,但无法预见未来约束,而模型预测控制(MPC)虽有优势却面临调参难题,尤其在高混合、低产量应用中,这严重阻碍了其使用。近期基于学习的调参方法虽有进展,但仍受限于模拟环境、超参数调优等问题。

本文提出一种新的 MPC 公式:在目标函数上,受瞬时控制启发,定义了新的阶段成本,其中包含表示与一阶响应偏差的项,通过特定结构选择参数,保留了瞬时控制可直接指定任务误差时间常数的优势,且使调参更直观;在不等式约束方面,采用类似控制障碍函数(CBF)的约束方式,相比直接在最优控制问题(OCP)中强制约束,能更好应对未建模动态和短预测时域情况;在处理高阶动力学上,虽可指定但因计算成本高且无调参优势未深入研究。

通过二维示例及表面跟随任务验证。二维示例中,新公式在不同时域长度下表现稳定,调参更简便;表面跟随任务里,对 6 - DOF 机器人操作臂控制,新公式在短时域可行,延长时域可降低跟踪误差、加快工具移动速度并使关节加速度更平滑,且计算时间仍在控制回路采样时间内。总之,该 MPC 公式有效解决了从瞬时控制器向 MPC 控制器过渡的调参难题,兼具直观性与良好性能。

7819bf01578d23a8899ff4bac051169b.png a25dc7ed81cd50c45c846b96ccb7b6dd.png

通过模型预测强化学习实现动态非预热物体传输

在机器人操作领域,让机器人从少量真实演示中快速学习新任务至关重要。模仿学习虽有进展,但行为克隆易受协变量偏移影响,在动态交互任务中,收集大量专家演示既耗时又昂贵,因此需要能从有限数据高效学习的方法。本文提出保守值模型预测控制(CV - MPC)框架:线阶段,将机器人服务员任务建模为马尔可夫决策过程,从仅含末端执行器状态和稀疏成功/失败标签的任务空间演示数据中训练价值函数集成,以近似演示者的长期失败概率,每个集成成员通过优化贝尔曼误差目标独立训练。在线阶段,在模型预测控制中利用预训练的价值函数集成来近似轨迹回报,采用风险规避目标引入悲观估计,避免因数据覆盖有限导致的外推误差,且仅在初始状态计算悲观估计,该框架可与现有 MPC 框架集成。

实验使用 Franka Panda 机器人进行模拟和真实世界实验。模拟实验中,通过消融研究确定了悲观参数和集成大小等关键超参数,表明 CV - MPC 对超参数设置鲁棒性强;与多种基线方法对比,CV - MPC 性能优异,能改进次优演示。真实世界实验里,在案例研究 1 中对不同凸形物体的测试,以及案例研究 2 中对各种家用物体的测试,均显示 CV - MPC 能有效泛化,成功率较高。

8ab581489c7be07a163b398afa0493c3.png

参考文献

Toward Scalable Multirobot Control: Fast Policy Learning in Distributed MPC , https://arxiv.org/pdf/2412.19669

Swept Volume-Aware Trajectory Planning and MPC Tracking for Multi-Axle Swerve-Drive AMRs, https://arxiv.org/pdf/2412.16875

VLMPC: Vision-Language Model Predictive Control for Robotic Manipulation, https://arxiv.org/pdf/2407.09829

Efficient Avoidance of Ellipsoidal Obstacles with Model Predictive Control for Mobile Robots and Vehicles, https://arxiv.org/pdf/2412.11552

From Instantaneous to Predictive Control: A More Intuitive and Tunable MPC Formulation for Robot Manipulators, https://arxiv.org/pdf/2412.01597

Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning, https://arxiv.org/pdf/2412.00086


“具身智能之心”公众号持续推送具身智能领域热点

  往期 · 推荐  


双臂机器人

斯坦福大学最新!双臂机器人协同操作:更丝滑更可预测!

RoboDual:行业首款通用具身操作的双系统协同框架诞生

港大最新!RoboTwin:结合现实与合成数据的双臂机器人基准

伯克利最新!CrossFormer:一个模型同时控制单臂/双臂/轮式/四足等多类机器人

四足机器人

TeleAI&港科大最新!离线学习+在线对齐,扩散模型驱动的四足机器人运动

从零搭建你的机械狗!具身智能四足机器人开源项目汇总

Robust Robot Walker:跨越微小陷阱,行动更加稳健!

斯坦福大学最新!Helpful DoggyBot:四足机器人和VLM在开放世界中取回任意物体

机器人学习

NeurIPS 2024 | BAKU:一种高效的多任务Policy学习Transformer

人形机器人专场!有LLM加持能有多厉害?看HYPERmotion显身手

NeurIPS 2024  | 大规模无动作视频学习可执行的离散扩散策略

美团最新!RoboMM:集于一体的机器人操作多模态大型模型

波士顿动力最新!可泛化的扩散策略:能有效操控不同几何形状、尺寸和物理特性的物体

RSS 2024 | OK-Robot:在机器人领域集成开放知识模型时,真正重要的是什么?

MIT最新!还在用URDF?URDF+:一种针对机器人的具有运动环路的增强型URDF

VisionPAD:3DGS预训练新范式!三大感知任务全部暴力涨点

NeurIPS 2024 | VLMimic:5个人类视频,无需额外学习就能提升泛化性?

纽约大学最新!SeeDo:通过视觉语言模型将人类演示视频转化为机器人行动计划

CMU最新!SplatSim: 基于3DGS的RGB操作策略零样本Sim2Real迁移

LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law

机器人干活总有意外?Code-as-Monitor 轻松在开放世界实时精确检测错误,确保没意外

斯坦福大学最新!具身智能接口:具身决策中语言大模型的基准测试

机器人控制

视觉语言动作模型,VLA这项任务怎么入门?

简单灵活,便于部署 | Diffusion-VLA:通过统一扩散与自回归方法扩展机器人基础模型

斯坦福最新!机器人能够自我监控,实时感知并避免潜在的失败?

RoboMatrix:一种以技能为中心的机器人任务规划与执行的可扩展层级框架

MASQ:多个“脑袋”能够对机器人实现更好的控制吗?

港大DexDiffuser揭秘!机器人能拥有像人类一样灵巧的手吗?

TPAMI 2024 | OoD-Control:泛化未见环境中的鲁棒控制(一览无人机上的效果)

其他(抓取,VLN等)

机器人有触觉吗?中科大《NSR》柔性光栅结构色触觉感知揭秘!

波士顿动力最新SOTA!ThinkGrasp:通过GPT-4o完成杂乱环境中的抓取工作

英伟达最新!NaVILA: 用于导航的足式机器人视觉-语言-动作模型

LLM+Zero-shot!基于场景图的零样本物体目标导航(清华大学博士分享)

具身智能离不开的室内导航!室内导航算法的优化框架汇总

PoliFormer: 使用Transformer扩展On-Policy强化学习,卓越的导航器

SPLANNING:实时预测碰撞风险,实现轨迹规划!

具身硬核梳理

扩散策略算法归纳整理:优势与挑战

全球具身智能2024进展回顾

北大王鹤老师组 | 对具身智能的思路研究

全面梳理视觉语言模型对齐方法:对比学习、自回归、注意力机制、强化学习等

你真的知道什么是具身智能吗?一文带你了解!

基础模型如何更好应用在具身智能中?美的集团最新研究成果揭秘!

关于具身智能Vision-Language-Action的一些思考

生成+理解一体多模态大模型的思考

具身仿真×自动驾驶

MMLab最新FreeSim:一种用于自动驾驶的相机仿真方法

麻省理工学院!GENSIM: 通过大型语言模型生成机器人仿真任务

EmbodiedCity:清华发布首个真实开放环境具身智能平台与测试集!

华盛顿大学 | Manipulate-Anything:操控一切! 使用VLM实现真实世界机器人自动化

东京大学最新!CoVLA:用于自动驾驶的综合视觉-语言-动作数据集

ECCV 2024 Oral | DVLO:具有双向结构对齐功能的融合网络,助力视觉/激光雷达里程计新突破

自动驾驶CornerCase变小Case,看生成式显神通

2096a1e39e963522de394722245d801b.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值