前言
随着机器人技术的高度发展,以及深度学习、强化学习、生成式AI和大模型的出现,传统的机器人工作模式单一、操纵灵活性差、缺乏理解能力,无法适应非计划性、随机性应用场景,难以满足广泛应用和具身智能化的要求。因此,开发具身机器人或者对现有机器人进行升级改造,对于解决各行各业的不同需求问题,促进经济快速繁荣发展具有重要的现实意义。本课题充分利用多模态视觉语言模型和图像处理算法等相关技术,完成Agent智能体的构建,实现机械臂智能动作编排,使其具备自主感和分析能力,成为具身智能体。运用Appbuilder-SDK模块,将语音指令快速转化为文字,实现语音识别技术。同时,构建强大且丰富的提示词库,实现机械臂对指令的准确全面理解。此外,基于深度学习和强化学习技术,通过高精度的深度相机和图像处理算法,精确地获取对象物的像素坐标,采用手眼标定和逆运动学解算,完成从像素坐标到机械臂坐标的转换,实现机械臂抓握等精准操作。
在机械臂动作实现之前,运用qwen2和qwen-vlm-max等大模型,训练其对指令的接受和转化能力,同时,也精准的获取对象物的位置。通过对不同对象物的不同指令的实验,表明该机械臂装置能够稳定、迅速地完成对目标物的识别,并对目标物进行指定的操作,具有良好的适用性和鲁棒性。
一、所需设备
亚博机械臂,D435i深度相机,笔记本电脑
二、技术栈
Python,Socket,手眼标定,四轴机械臂逆解,Appbuilder-SDK,大模型,jetsonnano主控板
三、演示视频
VLA-NeoArm——具身智能机械臂