硬核！智能拣选工作台中的人机协作研究

最新推荐文章于 2022-06-21 10:39:57 发布

King's King

最新推荐文章于 2022-06-21 10:39:57 发布

阅读量642

点赞数

文章标签：算法大数据编程语言 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzU3MjcyOTI3Mw==&mid=2247520219&idx=1&sn=7aa95642154354dfb85f904c5730968b&chksm=fccebd0dcbb9341b4ff5572b1ca843a94166ee70612cf1f6c78717855f9e7641bd4d594425a1&scene=126&&sessionid=0

版权

导语

大家好，我是智能仓储物流技术研习社的社长，你的老朋友，老K。

知识星球 * 原创电子书 * 深海社区 * 微信群

文：张贺龙吴洪明

来源：起重运输机械

引言

订单拣选是物流配送中心最重要、最复杂的作业之一，拣选方式和拣选技术直接影响着整个仓库的拣选效率，关系到仓库成本的高低。拣选方式逐渐向无人化、自动化方向发展，但目前想要实现高效率的无人化还有一定的技术瓶颈。本文提出了一种人机协作智能拣选工作台方法，大量重复的劳动由机器人完成，面对复杂的情况时则由人类完成任务。既发挥了人类灵活的决策能力，又利用了机器人完成重复的操作，降低了人类劳动强度。

在人机协作的过程中，一个重要的问题就是如何让机器人智能地理解人类，从而协助人类完成拣选任务。对人类的动作识别是让机器人理解人类行为意图的前提。基于此，利用Kinect视觉传感器提取人类动作特征，使用支持向量机算法对特征进行分类识别，最后实现对人类不同动作的识别。

1 拣选技术发展

拣选方式主要有人工拣选、半自动拣选、全自动拣选3种方案。人工拣选采用“人到货”拣选方式，拣选过程中货物不动，由工人到货架前对货物进行拣选。人工拣选的大部分时间都浪费在作业人员的行走与寻找货物的过程中。随着技术的不断发展，完全由人工拣选的场景越来越少。本文将详细介绍目前发展迅速的半自动拣选和全自动拣选方式。

1.1 半自动拣选

半自动拣选采用“货到人”拣选方式，在拣选的过程中工人基本不移动，货物自动运输到拣选工人的面前被分类拣选。与“人到货”拣选相比，“货到人”拣选中作业人员的行走时间和寻找储位的时间显著降低，工人的劳动强度大幅度下降，节省了人力成本。同时，“货到人”拣选采用立体存储和密集存储方式，可实现更高的存储密度。目前，“货到人”拣选技术发展最为迅速，已经普遍应用于电商、图书、食品、医药、服装等领域。

“货到人”拣选系统由存储系统、运输系统、拣选工作台3部分组成。目前，大量的研究集中在对存储系统和运输系统的开发中，许多成熟的技术已经在实际生产过程中应用。主流的存储和运输方式有Miniload“货到人”方案、类Kiva机器人“货到人”方案、穿梭车“货到人”方案、Autostore“货到人”方案等。

然而，对于专门针对拣选工作台的研究却极少。“货到人”拣选工作台是实现拣选系统与人交互的重要部分。除了满足拣选作业的基本需求，主要的研究方向集中在对拣选工作台功能的探索和方便工人拣选设计2个方面。现有的智能拣选工作台采用电子标签、照相、称重、快速输送等一系列技术，方便了工人在工作台中的拣选操作。但工人仍需要进行大量的重复性拣选，与拣选系统交互的智能性还不够高，大部分的工作都是由人类完成，自动化程度有进一步提升的空间。

1.2 全自动拣选

全自动拣选采用“货到机器人”拣选方式，整个过程基本不需要人类参与。其与“货到人”拣选相比，拣选工作台中采用机器人替代人，由机器人完成拣选操作。先通过运输系统将货物输送到工作台，在工作台中利用视觉系统来识别货物，再控制机器人抓取识别到的货物并放在指定位置。

虽然全自动无人化拣选是拣选技术的未来发展方向，但是目前还只是在少量大型企业中应用，还未在实际中推广。主要原因是商品的形状不规则、存放时存在相互遮挡，机器人实现自动识别与拣取的难度较大。除此之外，全自动生产线成本较高，拣选准确性和可靠性也在一定程度上影响了拣选效率。正是由于这些因素的影响， “货到机器人”拣选目前只能应用在固定规格的货物拣选场景中，对于不规则的货物拣选还需要进一步的研究。

1.3 人机协作拣选工作台

“货到人”由人工进行拣选作业，相对传统方式节省了工人的行走时间，但工人在工作台仍进行大量重复的劳动，面对较重的货物时劳动负担很大；“货到机器人”由机器人自动拣选，由于货物的不规则性，对机器人的视觉系统和夹具要求很高，难以得到广泛的应用。

针对“货到人”拣选和“货到机器人”拣选的不足，结合智能物流中的协同化发展趋势，提出了人机协作拣选工作台的概念。人机协作拣选工作台由协作机器人与人类共同进行拣选，机器人完成简单物品的拣选，复杂的情况则由人类进行处理。与“货到机器人”拣选相比，拣选过程可进行灵活调整，系统的柔性化程度更高，作业能力可进行自主调节。协作机器人拣选工作台如图1所示。

图1 协作机器人拣选工作台

对人的动作识别是实现人机协作拣选过程中顺畅地操作的前提条件。通过对人的动作识别，可以提前预知人类操作意图，既方便机器人协作人类进行下一步操作，又能避免机器人与人发生碰撞，保证作业人员的安全和拣选作业的流畅性。

2 动作特征提取

2.1 Kinect骨骼跟踪技术

Kinect V2是微软公司推出的一款深度相机，由1个RGB摄像头、1个红外发射器、1个红外接收器和数个麦克风组成^[10]。Kinect V2由飞行时间技术（Timeof Flight，TOF）技术得到深度图像。TOF技术通过探测设备自身发射红外光，红外光在遇到物体后发生反射，接收器接受反射光线，通过计算发射光线和接受光线的时间差就可以得到被拍摄物体与探测器的距离，该距离即是物体的深度信息。由深度信息得到人体骨骼关节点三维坐标，并由此得到骨骼图。

在拣选作业中，工人往往站在工作台前进行操作，下半身处于被遮挡的状态。在识别工人动作时，可将重点放在人体上半身的主要关节点上，则能减少无关骨骼点对动作的影响，方便算法对数据的处理，使系统运算时间减少，有利于动作的快速识别。而手指和指尖关节点在实际过程中容易被遮挡，导致数据出现跳动，误差过大，故不宜将这2种关节点作为特征。综上所述，选择12个关节点作为原始特征，如图2所示。

0.下脊柱 1.中心脊柱 2.肩部中心 3.头部

4.左肩 5.左肘 6.左手腕 7.左手 8.右肩

9.右肘 10.右手腕 11.右手

图2 上半身骨骼图

2.2 人体结构向量构建

选取合适的特征是进行动作识别的基础工作，结合拣选场景，所选取的特征应满足：

1）运动特征对不同类型的动作都能够完整描述；

2）运动特征对不同的动作要有区分性；

3）应尽量选取容易提取和容易处理的特征；

4）对于不同体型的人和不同的相机位置等外部无关因素来说，特征描述能保持稳定，且对噪声不敏感。

在选取特征之前，根据人体结构，选取17组人体结构向量，在这些结构向量的基础上进行特征选择。选取上肢与躯干部分结构向量共11组，由上半身的各个关节点按照人体结构依次连接而成；连接部分结构向量共6组，由手腕关节分别和脊椎中心、肩部中心连接构成。各人体结构向量与人体骨骼关节点的对应关系如表1所示。

2.3 特征向量夹角与模比值特征提取

1）基于向量角度的特征选择

由于肢体运动是旋转运动，可以使用向量的角度变化进行描述。共选取11组人体向量间的角度信息作为特征，如表2所示。主要涉及左右手臂和躯干主体，其中θ₁、θ₂、θ₃、θ₆、θ₇、θ₈用于描述动作过程中左右手臂关节角度变化，θ₄、θ₅、θ₉、θ₁₀用于描述上肢相对于躯干的角度变化，θ₁₁用于描述躯干的角度变化。

表2 人体结构向量夹角表

向量角	对应向量	向量角	对应向量
θ₁	i_2,4，i_4,5	θ₇	i_8,9，i_9,10
θ₂	i_4,5，i_5,6	θ₈	i_9,10，i_10,11
θ₃	i_5,6，i_6,7	θ₉	i_8,9，i_1,9
θ₄	i_4,5，i_1,5	θ₁₀	i_9,10，i_1,10
θ₅	i_5,6，i_1,6	θ₁₁	i_0,1，i₁_,2
θ₆	i_2,8，i_8,9

2）基于向量模比值的特征选择

肢体在运动时表现出一定的伸缩性，故向量间的模比值也是描述动作时不可忽略的重要参考值。为脊椎中心指向肩部中心的向量，和是肩部中心和脊椎中心分别指向左手腕的向量，和是肩部中心和脊椎中心分别指向右手腕关节的向量，利用模比值可以描述在运动过程中腕关节相对于躯干的位置信息。

4组向量的模比值计算方法为

式中：m_i（i=1，2，3，4）为向量相对与向量的模比值。

对一帧图像中的人体姿态，综合考虑向量角度与向量模比值特征，选取此15个特征参数来描述动作。用R_i表示第i帧的静态特征，得到第i帧静态姿态的15维描述向量为

3 基于支持向量机的动作识别算法

3.1 动作识别流程

动作识别过程实际就是对人体动作特征数据进行处理并分类的过程^[11]。本文使用了机器学习中的支持向量机算法（Support Vector Machine，SVM）对所选取的动作特征进行分类，动作识别算法流程如图3所示。

图3 动作识别流程图

3.2 支持向量机算法

作为监督学习中的一种典型算法，SVM应用十分广泛，可以用于模式识别、回归分析及分类等众多场景。在解决小数据样本、非线性分类以及高维模式分类问题中，SVM方法表现出独特的优势。

对于线性不可分问题，可采用核函数进行非线性变换，将原样本从低维空间向高维空间中转换，变线性不可分为线性可分。本文使用的径向基核函数为

式中：

为待确定的核参数。

在实际数据集采集过程中，总会存在一些噪声点，SVM为了把噪声点也划分正确，超平面就会向另外一个类的样本靠拢，使得划分超平面的几何间距变小，降低模型的泛化性能。SVM使用惩罚因子C平衡对数据样本的拟合能力和预测能力。C越大，拟合能力越强、预测能力越弱，容易出现过拟合；C越小，模型复杂度越低、拟合能力越弱，容易出现欠拟合。将问题转化成为优化问题，通过调整惩罚因子C的值得到最优的结果。

3.3 多分类支持向量机

基本SVM算法只能解决二分问题。对于多类别划分，可在原算法的基础上增加新的类别，构建出多分类SVM算法。常用的方法有一对多法和一对一法。

对于含有k个类别的样本数据，一对多法首先选定某1种类为二分类中的一种类，并定为正类；将其余种类自动归为另一种类，定为负类。由此可得到k个二分类问题，即存在k个SVM分类器。分类时将k个分类器结果中的最大值作为分类结果；一对一法任意选取2个作为1组二分类问题的类别，并设计相应的分类器，因此会产生k（k-1）/2个分类器。面对未知样本数据时，每一个分类器对分类结果进行投票，最后得票次数最多的类别就是该数据样本的所属类别。本文采用一对一法中的有向无环图法。

4 算法训练与测试

4.1 数据集采集

在数据集采集过程中，Kinect固定在拍摄架上，距离地面垂直距离约为1.6 m，距离人体水平距离约2 m，向下倾斜30°对人体进行拍摄。利用Kinect Studio V2.0软件进行采集，采集速率为30 帧/s，每一帧的数据包含36个坐标值数据，依次为关节点0～11的x，y，z坐标，单位为m。

针对拣选活动，本文定义4个拣选动作，分别是：右手拾取、右手移动、左手拾取、左手移动。在执行动作时，为了方便对动作的描述和数据的切割，每个动作的持续时间为1 s左右。由5个人分别执行4种拣选动作，每个动作重复5次。对于每个动作共有25组样本，随机选取其中20作为训练样本，5组作为测试样本。

4.2 基于粒子群算法的参数寻优

SVM算法需要确定的参数有2个：惩罚因子C、径向基核函数的参数γ。本文选用粒子群优化方法（Particle Swarm Optimization，PSO）对参数组合（C，γ）进行优化，使算法达到最好的效果。优化时需要确定的参数包括：惩罚参数C范围、核参数γ范围、局部搜索学习因子c₁、全局搜索学习因子c₂、初始化种群数量、最大进化代数。

训练时取C∈[0.1，100]，γ∈[0.1，100]，初始化为c₁=1.5，c₂=1.7，种群数量设为20，最大进化代数设置为200。PSO寻优过程如图4所示，仿真中第200代时达到最大迭代次数，进化终止。此时最优C=6.8368，最优γ=2.4807，Accuracy=98.146 8%。

图4 基于PSO算法的参数优化过程

4.3 训练与测试

将优化结果作为训练好的模型，对测试样本进行分类，每个动作有5个测试样本，每个样本有30个样本点，故4个动作的测试样本数为600个，分类得到的混淆矩阵如图5所示。

图5 SVM算法动作分类结果

从结果来看，4个动作在测试集上的识别率较高，都超过90%，满足实际的准确率需求。

4.4 结果与分析

由图5可知，右手移动识别率最高，达到了97%，而右手拾取动作识别率最低，为92%。这是由于右手拾取动作在数据采集时可能会有一部分的站立不动动作，导致识别率相对较低。而且左手拾取与左手移动2个动作容易相互混淆，是因为2个动作在实际操作过程中是持续进行的，动作衔接部分有相似之处，容易导致识别结果出现错误。

将本文使用的SVM算法与K最近邻算法（K-Nearest Neighbor，KNN）对比，识别结果如表3所示。