RT1 RT2 RTX() 学习

最新推荐文章于 2025-03-21 19:59:25 发布

qq_478377515

最新推荐文章于 2025-03-21 19:59:25 发布

阅读量784

点赞数

文章标签：学习人工智能

本文链接：https://blog.csdn.net/qq_33031419/article/details/133597663

版权

RT-1：

初生代的 ‘视觉-语言-动作模型’ 作品

RT-2:

RT1使用130k条机器人遥操作数据训练，展示出了其处理多种任务的能力和很强的泛化能力。但其通用性仍受限于数据集的大小。

若想要得到一个表现出当前LLMs能力的机器人大模型，收集数以亿计的机器人数据在短期内看起来是不可能的。

因此本文提出使用VLMs（trained on Internet-scale vision and language data along with robotic control data）：借助其强大的对图像的理解、推理等能力，结合机器人的数据（来自于RT1数据集）和原有的数据一起来对VLMs做co-fine-tuning，使其成为VLA（vision-language-action model），直接输出机器人的控制指令，实现实时的闭环控制。

RT-X:

参考：

机器人研究迎来ImageNet时刻：一个数据集，让DeepMind具身智能大模型突飞猛进

https://robotics-transformer-x.github.io/paper.pdf

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

我们知道，机器人通常在做某一件事情上非常专业，但通用能力很差。一般情况下，你必须针对每项任务、每个机器人和环境训练一个模型。改变一个变量往往需要从头开始。但是，如果我们能将各种机器人学的知识结合起来，创造出一种训练通用机器人的方法呢？

这就是 DeepMind 在过去一段时间所做的事情。他们汇集了来自 22 种不同机器人类型的数据，以创建 Open X-Embodiment 数据集，然后在之前的模型（RT-1 和 RT-2）的基础上，训练出了能力更强的 RT-X（分别为 RT-1-X 和 RT-2-X）。

Paper读后感悟：multiple datasets can improve robot behaviors success, but this obey to the corresponding models. BIg datasets need big network. Small dataset may not work well on big network