VLA-NeoArm——第一章项目概述


前言

随着机器人技术的高度发展,及深度学习、强化学习、大模型和生成式AI的出现,传统的机器人工作模式单一、操纵灵活性差、缺乏理解能力,无法适应非计划性、随机性应用场景,难以满足广泛应用和具身智能化的要求。因此,开发具身机器人或者对现有机器人进行升级改造,对于解决各行各业的不同需求问题,促进经济快速繁荣发展具有重要的现实意义。本课题充分利用多模态视觉语言模型和图像处理算法等相关技术,完成Agent智能体的构建,实现机械臂智能动作编排,使其具备自主感和分析能力,成为具身智能体。运用Appbuilder-SDK模块,将语音指令快速转化为文字,实现语音识别技术。同时,构建强大且丰富的提示词库,实现机械臂对指令的准确全面理解。此外,基于深度学习和强化学习技术,通过高精度的深度相机和视觉处理算法,精确地获取对象物的像素坐标,采用手眼标定和逆运动学解算,完成从像素坐标到机械臂坐标的转换,实现机械臂抓握等精准操作。
在机械臂动作实现之前,运用Qwen2和Qwen-VL-Max等大模型,训练其对指令的接受和转化能力,同时,也精准的获取对象物的位置。通过对不同对象物的不同指令的实验,表明该机械臂装置能够稳定、迅速地完成对目标物的识别,并对目标物进行指定的操作,具有良好的适用性和鲁棒性。本课题基于机械臂这一小物体作为切入点,为后续大型具身智能体的实现提供了一条可行的路径,为今后智能机器人的广泛应用奠定了一定的基础。


一、系统架构设计

本作品实现了大模型智能体和机械臂控制的结合,使得机械臂可以听懂人的指令去控制机械臂的运动,具体结构如图2-1所示。我们将动作表示为文本标记,通过部署的智能体Agent去编排动作,智能体可以通过Vision-Language大模型[25]去实时感知环境的变化并根据人的指令去控制机械臂动作。该机械臂可以适用于工业自动化:可以用于工厂中自动化机械臂的控制,提高生产效率和精度。医疗辅助:在手术或康复过程中,智能机械臂可以辅助医生或患者完成复杂的操作。家庭服务:在家庭环境中,智能机械臂可以帮助完成日常家务,提供便利。因此该系统的需求如下:

  1. 语音输入指令转换文自然语言然后通过Agent智能体去得到任务动作。
  2. Agent智能体编排的动作再通过Vision-Language大模型去得到周围环境。
  3. 机械臂通过手眼标定和运动学逆解去执行对应任务动作。

请添加图片描述

二、系统实现描述

本课题实现了大模型智能体和机械臂控制的结合,使得机械臂可以听懂人的指令去控制机械臂的运动,具体如图3-1所示。我们将动作表示为文本标记,通过部署的智能体Agent去编排动作,智能体可以通过Vision-Language大模型去实时感知环境的变化并根据人的指令去控制机械臂动作。
充分利用多模态视觉语言模型和图像处理算法等相关技术,完成Agent智能体的构建,实现机械臂智能动作编排,使其具备自主感和分析能力,成为具身智能体。运用Appbuilder-SDK模块,将语音指令快速转化为文字,实现语音识别技术。同时,构建强大且丰富的提示词库,实现机械臂对指令的准确全面理解。此外,基于深度学习和强化学习技术,通过高精度的深度相机和图像处理算法,精确地获取对象物的像素坐标,采用手眼标定和逆运动学解算,完成从像素坐标到机械臂坐标的转换,实现机械臂抓握等精准操作。
请添加图片描述

三、所需物件

亚博智能机械臂

亚博机械臂是由深圳市亚博智能科技有限公司生产的一种高精度、高灵活性的机器人设备。机械臂具有多自由度设计,它具备6个自由度,这使其能够在三维空间中灵活移动和操作,并且可以在狭小空间中进行复杂的动作。本课题主要选择亚博机械臂中的DOFBOT AI视觉机械臂(如下图所示)作为整个系统的主要部件。它是基于JETSON NANO的主控,通过ROS机器人操控系统,利用简化的6自由度串行总线舵机来完成复杂运动控制。同时,它的夹爪最大开合距离可以达到6厘米,整体臂展达到350毫米,有效的抓取范围在半径小于30厘米的以中心轴为半圆的区域中,有效负载可以达到200克。

Image 1 Image 2

Intel RealSense D435i

Intel RealSenseD435i是英特尔公司推出的一款消费级深度相机,它的主要构成如下图所示:

Image 1
它包含一个RGB相机、两个红外相机以及一个红外发射器,此外还有一个IMU单元(这也就是D435i和D435的区别,i就表示imu)。简单来说它的深度成像原理是主动立体红外成像,不是传统意义上理解的双目RGB相机成像,这点需要注意一下。 有了深度图(3D点云)和对应的RGB影像,因此也就很容易获得RGB-D点云了。因此从输出的角度而言,D435i可以看做是一个RGB-D传感器相机。后续可以搭配ORB-SLAM中RGB-D的模式进行使用。当然,也可以只用单目RGB影像,以单目SLAM模式运行,或者单目结合IMU,以Mono-Initial模式运行。唯一不能运行的是双目RGB模式(因为两个红外相机是单通道的)。当然我们可以获取双目的红外影像,以此作为输入,进行双目SLAM,结果也是类似的。因此可以看出,D435i是一个比较“全能”的传感器,从单目、单目+IMU、双目、双目+IMU、RGB-D都可以使用。 # 总结 本项目旨在探索具有自我学习能力和自我决策能力的通用型机器人的实现路径,通过设计和实现智能体机械臂系统,为大型具身智能体的实现提供了一条新型的可行的路径。该系统充分利用深度学习、大语言模型技术、优化算法和Fine-tuning,实现了机械臂的自主学习和处理多元化任务的自主决策能力。 在项目中,我们集成多项技术,利用Appubuilder-SDK来实现语音的检测和转化,便于机械臂理解语言指令。通过本地部署基于Qwen2的 Agent智能体,进行机械臂动作的自主编排和设计,实现机械臂的自主规划。此外,我们使用深度相机D435i作为机械臂的 “眼睛”,通过对任务场景的预先拍摄和Qwen-VLM-Max大模型的使用,利用手眼标定和逆运动学解算原理,解决了传统机器人仅仅可以完成固定场景和固定任务的缺陷,实现了机械臂的自我学习和自主决策,提高了机器人的适用性。 总体而言,本项目不仅实现了机械臂的自主学习能力和自我决策能力,而且通过实验证明针对复杂化多样化的场景具有良好的适用性和鲁棒性。通过运用深度学习和大模型技术与机器人结合,为今后通用性机器人的构造打通了一条独一无二的道路,展现了具身智能体构建的可能性,为未来机器人的广泛使用奠定了一定的基础。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值