【机器人】谷歌机器人从人类反馈中微调大模型来提高机器人执行任务的适应性

本文介绍了如何利用人类反馈改善大语言模型在机器人控制中的表现,通过LanguageModelPredictiveControl框架结合POMDP和MPC,使模型能更好地理解和学习长期任务。通过实例展示了如何通过微调增强机器人对自然语言指令的响应能力。
摘要由CSDN通过智能技术生成

公众号原文链接:
微调大模型来提升机器人适应性

这篇文章探讨了如何通过人类反馈来加速大语言模型(LLMs)输出正确的机器人策略代码的学习过程。这项研究的重点是提高机器人执行任务时的适应性和可教学性,特别是在非专家通过自然语言指导机器人时。

在以往的工作中,LLMs已经被用于机器人控制和任务规划(saycan, code as policies),尤其是在通过自然语言指令来指导机器人行为方面。然而,这些方法通常依赖于即时的、短期的交互(通过prompt来进行 in-context learning),其中用户的反馈仅在LLM的上下文窗口大小内保持相关性。这意味着随着交互的进行,之前的指令可能会被遗忘,导致模型在学习长期依赖和复杂任务方面受到限制。

研究的核心是提出了一种名为Language Model Predictive Control(LMPC)的框架,该框架通过结合部分可观察马尔可夫决策过程(POMDP)和模型预测控制(MPC)技术,来改进LLMs的性能。在LMPC框架中,人类与机器人的交互被视为一个POMDP,其中人类的指令输入作为观测,机器人代码输出作为动作。收集这些数据用于微调LLM,来预测和完成之前的交互,这可以看作是训练一个转换动态模型Transition Dynamics Model,该模型可以与经典的机器人技术(如MPC)结合,以发现通往成功的更短路径。

比如,在上面的视频中,一开始通过自然语言来指导机械狗做出一些动作,但是可能做的不太对,人类对其行为做出反馈(左下角的大拇指),然后将之前的指令,策略代码和人类反馈作为微调大模型的数据,微调后,大模型能立马懂得输出怎样的代码能最快满足指令的要求。

详情关注公众号:AI机器人日记

公众号有视频,图片,代码分享。
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值