Learning hand-eye coordinationfor robotic grasping with deep learning and large-scale data collecti

本文提出一种基于深度学习的抓取方法,通过训练卷积神经网络预测抓取成功率,实现机器人仅凭单目图像进行手眼协调抓取。大规模数据采集和连续伺服控制使得机器人能适应新目标并自我纠正。
摘要由CSDN通过智能技术生成

题目:基于深度学习的机器人抓取手眼协调学习 和大规模数据采集

摘要:我们描述了一种基于学习的手眼协调方法,用 于机器人从单目图像抓取。为了学习手眼协调 抓取,我们训练了一个大型卷积神经网络来预 测抓取器的任务空间运动成功抓取的概率,只 使用单目摄像机图像,独立于摄像机标定或当 前机器人姿态。这就需要网络去观察抓爪与场 景中物体之间的空间关系,从而学习手眼协调 然后利用该网络对夹持器进行实时伺服控制, 实现成功的抓取。为了训练我们的网络,我们 在两个月的时间里收集了超过 80 万次的抓取 尝试,在任何给定的时间使用 6 到 14 个机器人 操纵器,摄像机的位置和硬件都有所不同。实 验结果表明,该方法能够实现有效的实时控制 能够成功地抓取新目标,并通过连续伺服纠正 错误

一、简介

本文中,我们提出了一种基于学习的手眼协调方法, 我们在一个机器人抓取任务上进行了演示。我们的方法 是数据驱动和以目标为中心的:我们的方法学习伺服一 个机器人抓手通过端到端训练,直接从图像像素任务空间的夹持器运动, 很可能产生成功的抓取姿势。通过不断地重新计算最有希望的 运动指令,我们的方法不断地整合来自环境的感官线索,使其 能够对扰动做出反应,并调整抓取,以最大限度地提高成功的 概率。此外,电机指令是在机器人框架内发出的,这是模型在 测试时所不知道的。这意味着该模型不需要根据末端执行器对 相机进行精确校准,而是使用视觉线索来确定场景中夹持器和 可抓取物体之间的空间关系。

二、相关工作

抓取可分为几何驱动和数据驱动的方法。

几何方法分析目标物体的形状,并根据诸如力闭合或笼型等标准计划一个合适的抓握姿势。该方法需要了解场景的几何形状,使用深度或立体传感器,并将之前扫描的模型与观测结果进行匹配。

数据驱动的方法有多种不同的形式,包括基于监督的预测抓取配置Herzog2014,Lenz2015;通过离线计算的几何标准预测手指位置的方法Goldfeder2009。这两种类型的数据驱动抓取选择在最近研究中都加入和深度学习Kappler2015,Lenz2015,Red-mon&Angelova2015.

三、概述

四、基于卷积网络和连续伺服的抓取

五、数据采集

六、实验

### 连接视觉语言模型与运动规划以实现细粒度机器人操作 为了实现通过语义关键点表示连接视觉语言模型(VLM)与运动规划(KMP),从而完成细粒度的机器人操作,可以考虑以下几个方面: #### 1. 高维决策到Meta-action的一对一映射 利用Meta-action Encoder \( \phi \),能够将大语言模型(LLM)输出的高维度决策转化为具体的元动作(meta-action)。这一过程依赖于可学习嵌入矩阵\( E_{\text{act}} \),它实现了从抽象的语言描述到具体物理行为的有效转换[^1]。 #### 2. 自然指导与自我指导相结合的方法 借鉴《Semi-Instruct: Bridging Natural-Instruct and Self-Instruct for Code Large Language Models》中的方法论,可以通过半监督的方式构建训练数据集。这种方法不仅增强了模型对于复杂任务的理解能力,还提高了其泛化性能[^2]。 #### 3. 数据驱动的知识获取机制 基于《Knowing When to Ask -- Bridging Large Language Models and Data》,提出了一个框架来决定何时向外部数据库查询额外的信息。这种策略有助于减少错误率并提升系统的可靠性[^3]。 #### 技术实现路径 以下是可能的技术路线图以及其实现方式: - **语义解析模块**:采用预训练好的多模态模型作为基础架构,输入图像或视频片段提取场景内的对象及其属性特征; - **关键点检测网络**:设计专门用于捕捉目标物体上特定部位位置关系的关键点预测算法; - **交互逻辑生成器**:借助强化学习或者模仿学习技术教导机械臂按照指定顺序执行一系列子任务直至达成最终目的。 ```python def execute_fine_grained_manipulation(vlm_output, kmp_plan): """ Execute fine-grained robotic manipulation based on VLM output and KMP plan. Args: vlm_output (dict): Output from the visual language model containing semantic keypoints. kmp_plan (list): Sequence of kinematic motion planning steps. Returns: bool: True if successful; False otherwise. """ meta_actions = [] for step in kmp_plan: action_embedding = phi(step) # Convert high-dimensional decision into a meta-action via φ meta_action = decode_meta_action(action_embedding) meta_actions.append(meta_action) success = perform_robotic_operations(meta_actions, vlm_output['keypoints']) return success def decode_meta_action(embedding_vector): """Decode an embedding vector back into its corresponding physical operation.""" pass # Placeholder function def perform_robotic_operations(operations, keypoints): """Perform operations according to given sequence while considering detected keypoints.""" pass # Placeholder function ``` 上述伪代码展示了如何结合来自VLM的结果与由KMP制定的动作序列共同指引实际设备运作的过程。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值