人工智能 - DexGraspVLA:重新定义机器人灵巧抓取的视觉-语言-行动框架

灵巧的抓取仍然是机器人技术中一个基本但具有挑战性的问题。通用机器人必须能够在任意场景中抓取各种物体。但是,现有研究通常依赖于特定的假设,例如单对象设置或有限环境,从而导致受约束的泛化。我们的解决方案是 DexGraspVLA,这是一个分层框架,它利用预先训练的视觉语言模型作为高级任务规划器,并学习基于扩散的策略作为低级动作控制器。关键的见解在于将不同的语言和视觉输入迭代地转换为领域不变的表示,由于域偏移的缓解,模仿学习可以得到有效应用。因此,它可以在各种实际场景中实现稳健的泛化。值得注意的是,在 “零镜头” 环境中,我们的方法在数千个看不见的物体、照明和背景组合下实现了 90+% 的成功率。实证分析进一步证实了内部模型行为在环境变化中的一致性,从而验证了我们的设计并解释了其泛化性能。我们希望我们的工作可以成为实现一般灵巧抓握的一步。 

1. 引言:灵巧抓取的“圣杯”挑战

在机器人技术领域,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天机️灵韵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值