RT1 RT2 RTX() 学习

RT-1:

初生代的 ‘视觉-语言-动作模型’ 作品

RT-2:

RT1使用130k条机器人遥操作数据训练,展示出了其处理多种任务的能力和很强的泛化能力。但其通用性仍受限于数据集的大小。

若想要得到一个表现出当前LLMs能力的机器人大模型,收集数以亿计的机器人数据在短期内看起来是不可能的。

因此本文提出使用VLMs(trained on Internet-scale vision and language data along with robotic control data:借助其强大的对图像的理解、推理等能力,结合机器人的数据(来自于RT1数据集)和原有的数据一起来对VLMs做co-fine-tuning,使其成为VLA(vision-language-action model),直接输出机器人的控制指令,实现实时的闭环控制。

RT-X:

参考:

机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进

https://robotics-transformer-x.github.io/paper.pdf

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

我们知道,机器人通常在做某一件事情上非常专业,但通用能力很差。一般情况下,你必须针对每项任务、每个机器人和环境训练一个模型。改变一个变量往往需要从头开始。但是,如果我们能将各种机器人学的知识结合起来,创造出一种训练通用机器人的方法呢?

这就是 DeepMind 在过去一段时间所做的事情。他们汇集了来自 22 种不同机器人类型的数据,以创建 Open X-Embodiment 数据集,然后在之前的模型(RT-1 和 RT-2)的基础上,训练出了能力更强的 RT-X(分别为 RT-1-X 和 RT-2-X)。

Paper读后感悟:multiple datasets can improve robot behaviors success, but this obey to the corresponding models. BIg datasets need big network. Small dataset may not work well on big network

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值