Accurate Hand Detection Method for Noisy Environments

最新推荐文章于 2024-06-08 09:57:51 发布

铿锵的玫瑰

最新推荐文章于 2024-06-08 09:57:51 发布

阅读量408

点赞数

分类专栏：论文大全

本文链接：https://blog.csdn.net/LYKymy/article/details/96479527

版权

论文大全专栏收录该内容

162 篇文章 9 订阅

订阅专栏

Abstract

针对在光照和遮挡条件下手动检测精度低的问题，探索了基于普通光学图像的人手检测，并提出了一般条件下的精确手动检测方法。主要采用基于肤色模型和卷积神经网络（CNN）的方法实现人手的检测。
首先，根据HSV（色调，饱和度和值）空间中的肤色特征获得肤色模型，该空间用于分割皮肤区域。在此基础上，构建了一种用于检测人手轮廓的卷积神经网络，用于提取人手轮廓特征以约束皮肤区域以获得手部区域。
结果表明，即使在光线和屏蔽的情况下，它也具有适应性，从而提高了手部检测的准确性。

Introduction

在手势识别或手势跟踪中，通常首先检测到人手，这是后续手势识别和手势跟踪的基础。因此，Tompson等人采用基于深度相机的方法，结合基于光学图像的彩色图像标记方法来检测手部，后来采用基于深度的卷积神经网络进行手势跟踪。
相比深度相机和手套等特殊装置的使用，戴手套的普通双手总是富有表现力，相对自由，灵活方便。例如，在家庭或服务机器人的领域中，在普通光学相机下检测人手仍然是非常重要的。
关于人力测试的研究，许多学者做了很多相关的工作。传统方法主要取决于人手的Haar特征，肤色特征等特征。
Bilal等人提出了一种将Haar特征与Adaboost相结合的人手检测方法。他们首先使用类似Haar的功能从手中提取信息，然后使用AdaBoost算法进行学习。
为了减少人脸检测对人手的影响，Stenger等人分别训练人手和面部检测器，并使用该方法进一步提高检测精度。
这些传统方法在一定条件下可以取得良好的实验结果。然而，当实验环境发生很大变化时，实验结果趋于不稳定，例如当光线发生变化时。
刘等人使用Kinect深度相机在复杂背景下实现近距离人手检测和指尖跟踪。
Sridhar等人训练分层随机森林分类器，对深度图像中的每个像素进行分类，并快速确定人手区域。
随着深度学习的快速发展，Hoang等人提出的多尺度Faster-RCNN方法。该方法使用全局和局部深度特征来编码图像中的人手以获得人手的位置。这些方法基于逐像素聚类与深度图像的组合。如果对象被握在手中，则会出现一些像素分类错误，因为所保持的对象的深度与手指类似。
因此，为了解决光照变化和遮挡情况下人工检测率低的问题，本文探讨了基于普通光学图像的人手检测方法，并提出了一般条件下的人体检测方法，主要是基于对肤色模型结合卷积神经网络（Convolutional Neural Network，CNN）方法实现人手的检测。

Algorithm Framework

本文提出的算法包括两个模块：肤色检测和人手识别。其中，输入是实时视频帧序列，输出是包含人手区域校准的一系列视频帧。在人手的实时检测过程中，视频两帧之间的间隔通常很短，本文算法时间复杂度低，可以满足每帧实时的平滑处理。
人体皮肤颜色特征是区别于周围环境的独特特征之一。经过大量的科学研究，人们发现人体肤色具有非常好的聚类效果。人体肤色在不同颜色空间中表现出不同的聚类特征。

Skin Color Detection Based on HSV Space

为了获得更清晰的手势分割效果，选择色彩空间尤为重要。通常图像是RGB，其中R，G，B分别代表红色，绿色和蓝色的亮度信息，并且它们之间存在一定的相关性。亮度的轻微变化将导致皮肤颜色分割的巨大变化，它不适合手势分割。它需要使用线性或非线性变化将其转换为其他颜色空间以进行肤色分割。本文使用HSV颜色空间来模拟肤色。
无论亮度和饱和度的影响如何，每种颜色在HSV颜色空间中都有自己的色调值，因此HSV颜色空间中的色调尺寸可用于分割不同的颜色。在进行肤色检测时，环境光经常变化，导致人体皮肤的亮度和饱和度发生变化。但是人体皮肤的色调一般不会改变，所以基于HSV颜色空间中的H维可以进行皮肤颜色分割。
首先，对RGB进行归一化，然后对R，G，B2 [0,1]进行归一化，然后将RGB空间转换为HSV空间，具体变换方法如下：
这表示当颜色为灰度颜色时，颜色无法转换为HSV空间。对于这个问题，考虑到肤色不是灰色，本文增加了一个步骤判断，即当颜色为灰色时，直接排除; 当颜色不是灰色时，则使用肤色模型切换到HSV肤色空间进行判断。
为了检测人手，需要建立良好的肤色模型。本文收集了本实验中各种环境条件下人手的图像。收集了91只手的图像，共121个肤色区域，总共5910513像素。这些像素的平均灰度值为129.12; RGB三个通道的平均值分别为149.21,124.25和101.02。为了使所选阈值具有良好的抗噪能力，在实验测量后，从6到48选择肤色分割的H阈值。使用此范围可以分割大部分手势区域，并具有良好的抗噪声性能。

Hand Detection Based on Convolutional Neural Network

卷积神经网络是一种特殊的深度神经网络模型，它是一种新型的人工神经网络。目前，卷积神经网络已广泛应用于各种领域，如语音识别，手写识别和人脸识别。在图像域中，使用卷积神经网络来处理图像具有天然的优势。与其他人工神经网络相比，它主要具有局部连接，权重共享和汇集的特点。
考虑到人体检测的实时要求，网络结构的四层使用完整的卷积网络，并将输入图像下采样到160*20*3，以降低计算复杂度并提高检测速度。网络中的第一个卷积层采用64*3*3卷积核，步长为1;第二个卷积层采用128*3*3卷积核，步长为1;第四个卷积层采用256*3*3卷积核，步长为1;4个完整的卷积层，后跟3个完全连接层，大小为1024,1024和4800。最终输出层是4800，将其转换为80*60图像作为预测结果。
在本文中，NYU手势数据库[8]用作训练数据集数据库，其包含超过41258个大小为320×320像素的图像，并给出手动标记的图像。由于数据库中的图像是通过将合成的人体图像放置在各种真实背景中而生成的合成图像，因此合成人手与真实的人手具有一定的差异。因此，在训练中，我们具有训练图像的亮度和对比度，色调，饱和度以进行数据增强。
由于普通光学相机获得的普通实时图像尺寸为640×480，为了更好地保持卷积神经网络预测结果与相机获得的图像一致，本文使用了标记的人手位置图像。数据库中的图像。执行修整至实时图像320*240的一半比例。考虑到网络的耗时计算，原始图像被进一步下采样到160*120，并且标记的图像被下采样到80*60。
在网络训练的初始状态下，所有网络参数都设置为随机初始化状态; Relu函数用作网络的所有卷积层中的激活函数，并且Sigmoid函数用作包括输出层的完整连接层中的激活函数;该过程使用均方误差（MSE）作为损失函数，并使用随机梯度下降算法来更新网络参数; 在整个迭代训练过程中，学习率设置为0.01。
当使用卷积神经网络来预测包含人类输入的图像时，可以很好地提取人手的轮廓，但是手掌中的提取效果通常不是理想的。因此，特征约束是根据由CNN提取的轮廓特征基于HSV限制肤色检测效果，并获得手区域。具体方法如下：

Conclusion

手势是智能人机交互的重要肢体语言，人手检测是手势交互的基础。本文提出了一种手动检测算法。实验表明，该算法具有良好的准确性和鲁棒性。该算法利用检测网络提取人手的轮廓特征，约束肤色检测对获取人手区域的影响，取得了良好的实验效果。
虽然该算法对照明和遮挡的变化具有一定的鲁棒性，但该算法仍有一些问题需要解决。例如，对人手腕部的检测效果不理想。在下一步骤中，使用用于人手腕部的基于梯度的轮廓分析方法来提取人手的轮廓，以便实现用于人手检测的更准确的目标。