前言
随着机器人技术的高度发展,及深度学习、强化学习、大模型和生成式AI的出现,传统的机器人工作模式单一、操纵灵活性差、缺乏理解能力,无法适应非计划性、随机性应用场景,难以满足广泛应用和具身智能化的要求。因此,开发具身机器人或者对现有机器人进行升级改造,对于解决各行各业的不同需求问题,促进经济快速繁荣发展具有重要的现实意义。本课题充分利用多模态视觉语言模型和图像处理算法等相关技术,完成Agent智能体的构建,实现机械臂智能动作编排,使其具备自主感和分析能力,成为具身智能体。运用Appbuilder-SDK模块,将语音指令快速转化为文字,实现语音识别技术。同时,构建强大且丰富的提示词库,实现机械臂对指令的准确全面理解。此外,基于深度学习和强化学习技术,通过高精度的深度相机和视觉处理算法,精确地获取对象物的像素坐标,采用手眼标定和逆运动学解算,完成从像素坐标到机械臂坐标的转换,实现机械臂抓握等精准操作。
在机械臂动作实现之前,运用Qwen2和Qwen-VL-Max等大模型,训练其对指令的接受和转化能力,同时,也精准的获取对象物的位置。通过对不同对象物的不同指令的实验,表明该机械臂装置能够稳定、迅速地完成对目标物的识别,并对目标物进行指定的操作,具有良好的适用性和鲁棒性。本课题基于机械臂这一小物体作为切入点,为后续大型具身智能体的实现提供了一条可行的路径,为今后智能机器人的广泛应用奠定了一定的基础。
一、系统架构设计
本作品实现了大模型智能体和机械臂控制的结合,使得机械臂可以听懂人的指令去控制机械臂的运动,具体结构如图2-1所示。我们将动作表示为文本标记,通过部署的智能体Agent去编排动作,智能体可以通过Vision-Language大模型[25]去实时感知环境的变化并根据人的指令去控制机械臂动作。该机械臂可以适用于工业自动化:可以用于工厂中自动化机械臂的控制,提高生产效率和精度。医疗辅助:在手术或康复过程中,智能机械臂可以辅助医生或患者完成复杂的操作。家庭服务:在家庭环境中,智能机械臂可以帮助完成日常家务,提供便利。因此该系统的需求如下:
- 语音输入指令转换文自然语言然后通过Agent智能体去得到任务动作。
- Agent智能体编排的动作再通过Vision-Language大模型去得到周围环境。
- 机械臂通过手眼标定和运动学逆解去执行对应任务动作。
二、系统实现描述
本课题实现了大模型智能体和机械臂控制的结合,使得机械臂可以听懂人的指令去控制机械臂的运动,具体如图3-1所示。我们将动作表示为文本标记,通过部署的智能体Agent去编排动作,智能体可以通过Vision-Language大模型去实时感知环境的变化并根据人的指令去控制机械臂动作。
充分利用多模态视觉语言模型和图像处理算法等相关技术,完成Agent智能体的构建,实现机械臂智能动作编排,使其具备自主感和分析能力,成为具身智能体。运用Appbuilder-SDK模块,将语音指令快速转化为文字,实现语音识别技术。同时,构建强大且丰富的提示词库,实现机械臂对指令的准确全面理解。此外,基于深度学习和强化学习技术,通过高精度的深度相机和图像处理算法,精确地获取对象物的像素坐标,采用手眼标定和逆运动学解算,完成从像素坐标到机械臂坐标的转换,实现机械臂抓握等精准操作。
三、所需物件
亚博智能机械臂
亚博机械臂是由深圳市亚博智能科技有限公司生产的一种高精度、高灵活性的机器人设备。机械臂具有多自由度设计,它具备6个自由度,这使其能够在三维空间中灵活移动和操作,并且可以在狭小空间中进行复杂的动作。本课题主要选择亚博机械臂中的DOFBOT AI视觉机械臂(如下图所示)作为整个系统的主要部件。它是基于JETSON NANO的主控,通过ROS机器人操控系统,利用简化的6自由度串行总线舵机来完成复杂运动控制。同时,它的夹爪最大开合距离可以达到6厘米,整体臂展达到350毫米,有效的抓取范围在半径小于30厘米的以中心轴为半圆的区域中,有效负载可以达到200克。


Intel RealSense D435i
Intel RealSenseD435i是英特尔公司推出的一款消费级深度相机,它的主要构成如下图所示:
