【机器人】谷歌机器人从人类反馈中微调大模型来提高机器人执行任务的适应性

最新推荐文章于 2024-10-18 22:12:45 发布

AI机器人日记

最新推荐文章于 2024-10-18 22:12:45 发布

阅读量792

点赞数 16

文章标签：机器人人工智能 gpt 语言模型机器学习人机交互深度学习

本文链接：https://blog.csdn.net/2401_84005497/article/details/137152546

版权

本文介绍了如何利用人类反馈改善大语言模型在机器人控制中的表现，通过LanguageModelPredictiveControl框架结合POMDP和MPC，使模型能更好地理解和学习长期任务。通过实例展示了如何通过微调增强机器人对自然语言指令的响应能力。

摘要由CSDN通过智能技术生成

公众号原文链接：
微调大模型来提升机器人适应性

这篇文章探讨了如何通过人类反馈来加速大语言模型（LLMs）输出正确的机器人策略代码的学习过程。这项研究的重点是提高机器人执行任务时的适应性和可教学性，特别是在非专家通过自然语言指导机器人时。

在以往的工作中，LLMs已经被用于机器人控制和任务规划（saycan, code as policies），尤其是在通过自然语言指令来指导机器人行为方面。然而，这些方法通常依赖于即时的、短期的交互（通过prompt来进行 in-context learning），其中用户的反馈仅在LLM的上下文窗口大小内保持相关性。这意味着随着交互的进行，之前的指令可能会被遗忘，导致模型在学习长期依赖和复杂任务方面受到限制。

研究的核心是提出了一种名为Language Model Predictive Control（LMPC）的框架，该框架通过结合部分可观察马尔可夫决策过程（POMDP）和模型预测控制（MPC）技术，来改进LLMs的性能。在LMPC框架中，人类与机器人的交互被视为一个POMDP，其中人类的指令输入作为观测，机器人代码输出作为动作。收集这些数据用于微调LLM，来预测和完成之前的交互，这可以看作是训练一个转换动态模型Transition Dynamics Model，该模型可以与经典的机器人技术（如MPC）结合，以发现通往成功的更短路径。

比如，在上面的视频中，一开始通过自然语言来指导机械狗做出一些动作，但是可能做的不太对，人类对其行为做出反馈（左下角的大拇指），然后将之前的指令，策略代码和人类反馈作为微调大模型的数据，微调后，大模型能立马懂得输出怎样的代码能最快满足指令的要求。

详情关注公众号：AI机器人日记

公众号有视频，图片，代码分享。
在这里插入图片描述