pythonrgbd图片像素对齐_一种基于RGBD融合网络的手部姿态估计系统及方法与流程...

本发明涉及计算机视觉和深度学习

技术领域:

,具体而言,尤其涉及一种基于RGBD融合网络的手部姿态估计系统及方法。

背景技术:

:基于视觉的3D人手姿态估计在计算机视觉、虚拟现实、机器人等领域是热点研究问题,已经有很多的研究成果。但是,到目前为止,基于视觉信息估计人手姿态仍然是一个没有完美解决的问题,手指关节的高度灵活的变化、不同手指之间具有较高的相似性、手指动作时相互之间的遮挡以及物体对手指的遮挡,给手部姿态估计带来了较大的挑战,阻碍了相应应用领域智能化、全自动化的发展。因此,开发性能更为优良的人手姿态估计方法有十分重要的意义。国内外研究人员在人手姿态估计问题上尝试了很多研究方案。输入数据模态包括单幅彩色RGB图像.随着深度相机技术的成熟和价格下降,使用深度数据估计人手姿态近年来得到了广泛关注.关于基于视觉的手部姿态估计方法,大致可以分为基于生成式模型的方法和基于数据学习的方法。生成式模型法通常预先定义一个手部模型,借助不同的目标函数实现手部模型与观测到的深度图像的最优匹配。这类方法的性能对目标函数的合理性有较高依赖,对初始参数值敏感,估计速度慢,当手部动作变化较快时,姿态估计的准确度下降严重。数据学习法用大量数据训练手部姿态估计模型,直接回归得到关节位置或角度。Choi等使用合成的高质量仿真数据训练网络模型来估计手部关节位置,然而仿真数据与真实数据之间存在较大的差异,在实际应用时存在泛化问题。Ge等人将实际深度图像转换成点云,再将点云投影到手部的方向包围盒的三个正交平面上,形成多视角的深度图,利用2DCNN学习更有效的空间特征。Moon等人将深度数据转换为3D体素表达,使用更复杂的3DCNN进行学习,达到了较高的预测精度,然而构造3D数据的转换过程较为复杂且耗时。上述手部姿态检测的研究将环境限定为空手动作且为面向相机的第三视角,尽可能地减少遮挡,为关节检测带来很大便利,然而当场景不是第三视角或与物体交互时,存在较强的遮挡,为解决这样的问题,Goudie使用真实的深度图像,通过手物分割网络与关节估计网络的二阶段操作,实现手操作小球时的手部关节估计,然而此方法仅限已知物体,需要额外的分割标注,且对于其他物体的泛化能力未知。技术实现要素:根据上述提出的技术问题,而提供一种基于RGBD融合网络的手部姿态估计系统及方法。针对不同视角下手物交互过程中人手姿态估计问题,本发明主要通过彩色图像与深度图像的信息综合,达到具有较高准确度的手部姿态估计。本发明采用的技术手段如下:一种基于RGBD融合网络的手部姿态估计系统,包括:全局深度特征提取模块,采用平行的两路交叉融合的残差网络,上路为高分辨率的特征图,下路为低分辨率特征图,通过交叉融合多分辨率的信息来进行多尺度特征融合,最终在高分辨率特征图预测网络输出;残差模块,对于彩色图像,先使用两组堆叠的卷积-池化模块提取低级特征,并使用关键点的2D热图作为监督,引导彩色特征提取聚焦在手部关键点附近,将彩色图像中得到的手部关键点的低级特征送入残差模块;多模态特征融合模块,先将深度特征与彩色特征进行级联,通过3×3的卷积和归一化操作平衡两种模态特征的尺度,通过全局平均池化将Sigmoid操作计算特征向量作为特征选择的权重,与原特征图逐像素相乘再相加,起到特征选择和结合的作用;分支并行干扰消除模块,对经所述多模态特征融合模块融合后的特征进行特征提取和最终关节3D位置的回归。进一步地,所述全局深度特征提取模块使用较少的残差块以保证低级特征的提取,残差块将原始的输入信息经过跨层连接与经过后续网络处理的特征逐像素相加。本发明还提供了一种基于RGBD融合网络的手部姿态估计方法,包括:步骤1:准备数据集;步骤2:将数据集中的图像数据输入到RGBD融合卷积神经网络进行学习和预测;步骤3:设计损失函数,所述损失函数定义如下:其中,第一项和分别为全局特征提取模块中深度图像处理支路和彩色图像处理支路的2D热图损失函数项,计算每个关节点预测的热图与真值热图的误差,权重α平衡各级损失函数项的作用强度,权重系数均设为0.005;其中,J表示关节点总数,hi表示预测的第i个关节的热图,Hi表示第i个关节的真值标签的热图,u和v分别表示热图的横、纵像素坐标,L1表示第一级监督计算每个关节点预测的热图与真值的热图之间逐像素的l2范数的平方;第二个损失函数项L2位于手部分支并行干扰消除模块中,具体定义为:其中,c表示网络预测的关节点3D坐标集合,C表示真实的关节点3D坐标集合,各支路关节点个数J与不同数据集关节标注规则相关,Jthumb=5,Jindex=4,Jothers=12,α、β、γ是平衡各项的权重因子。第三个损失函数项位于干扰消除之后的最终的分支之后,定义了每个分支预测的关节点的3D坐标与真值标注之间距离,其定义与L2相同;步骤4:构建网络并进行网络训练,网络使用python2.7基于tensorflow1.3构建,在配有GTX1080显卡的主机上进行训练和测试;步骤5:通过评价指标对测试结果进行分析;所述评价指标包括平均关节误差和正确检测帧比率。进一步地,所述步骤1中准备数据集的具体过程如下:步骤11:获取图像数据集;所述图像数据集包括彩色图像和深度图像;步骤12:数据对齐;将深度图像上像素点转换到世界坐标下,计算与彩色图像像素点的投影关系,将彩色图像投影到深度空间;将手部深度图像大小调整为96×96,深度值归一化到[-1,1],同比例裁剪配准后的彩色图像,彩色图像像素值归一化到[-1,1],作为网络的输入,对应关节坐标标注同样做归一化处理;步骤13:数据分集,将上述图像数据集划分成训练集和测试集;在划分训练集和测试集时,图像数据集提供按动作1:1进行训练集与测试集的划分,以及按物体进行1:1比例划分训练集和测试集,测试集中的物体不包含在训练集中。进一步地,所述步骤2包括:步骤21:全局深度特征提取模块和残差模块分别对深度图像和彩色图像进行特征提取;步骤22:多模态特征融合模块将提取的特征进行融合后形成全局特征,送入分支并行干扰消除模块;步骤23:所述分支并行干扰消除模块进行手部分支的特征提取,得到强化的手部分支特征,用于最终的关节位置预测。进一步地,所述步骤4的具体过程如下:步骤41:网络采用端到端的方式进行训练,所有的权重被随机初始化为均值0,标准差为0.01的正态分布;步骤42:使用Adam算法进行梯度的反向传播计算,初始学习率设为0.001,每一轮训练学习率衰减为上一轮的0.96倍;除输出层之外所有的全连接层都使用随机失活防止过拟合,随机失活比率设为0.5,批大小为64,训练70轮。进一步地,所述平均关节误差为测试集中每一帧图像的所有关节位置的预测值与真值标签之间的3D距离;所述正确检测帧比率为所有关节点的误差低于某个阈值的帧数所占总体测试集的比例。进一步地,所述步骤21中全局深度特征提取模块对深度图像进行特征提取的过程如下:步骤211:将分辨率为96×96的深度图像进行两次下采样得到48×48和24×24大小的深度图像;步骤212:分别对每个尺度的输入深度图像进行特征提取,其中,大尺寸的输入图像使用堆叠的3×3的卷积核提取特征,并用4×4的最大池化层进行特征的降采样,中等尺寸的输入图像经过堆叠的3×3的卷积层提取特征,之后使用2×2的最大池化层对特征图进行降采样,小尺寸的输入图像直接经过一层3×3的卷积层;步骤213:将三种尺寸的深度图像得到的浅层特征进行级联融合,作为所述全局深度特征提取模块的输入。进一步地,在步骤21全局深度特征提取模块和残差模块分别对深度图像和彩色图像进行特征提取之前还包括对深度图像和彩色图像进行预处理的步骤。进一步地,所述步骤21中还包括使用手部关节的24×24大小的2D热图对全局深度特征提取模块进行中间监督,引导其关注手部关节点周围的特征,以保证检测精度的步骤。较现有技术相比,本发明具有以下优点:1、准确率高,适用性更好,计算复杂性低,运行时间少。在FAHD数据集上实施本发明提出的方法,在未知物体上的检测精度为18.25mm,优于Holi-CNN的19.84mm的检测精度,说明本发明提出的方法具有较好的在未知物体上的泛化性能力。2、本发明提出的方法具有新颖的网络结构。结构设计建立在手部结构和功能特点的基础上,不同的网络分支与不同的手指相对应,同时通过并行干扰消除策略强化各分支专有特征。同时,充分融合彩色图像和深度图像的多模态互补信息,提高了手部姿态估计的准确性。3、本发明提出的方法效率高,在GeForceGTX1080,Corei7–77003.6GHz*8计算平台下,测试效率290fps。基于上述理由本发明可在计算机视觉和深度学习等领域广泛推广。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明系统总体结构图。图2为本发明实施例彩色图像配准到深度图像空间示意图。图3为本发明系统全局深度特征提取模块结构图。图4为本发明系统多模态特征融合模块结构图。图5为本发明系统分支并行干扰消除模块结构图。图6为本发明实施例手部姿态真值与估计结果对比图。具体实施方式为了使本

技术领域:

的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。考虑到交互遮挡情境下的手部姿态检测所面临的挑战,本发明所设计的网络结构是一种双流融合的卷积神经,输入部分分为深度图像处理支路和RGB彩色图像处理支路,两个支路所提取的特征,进行多模态融合后形成全局特征,送入分支并行干扰消除模块进行手部分支的特征提取,得到强化的手部分支特征,用于最终的关节位置预测。实施例1如图1示,本发明提供了一种基于RGBD融合网络的手部姿态估计系统,包括:全局深度特征提取模块,如图3所示,采用平行的两路交叉融合的残差网络,上路为高分辨率的特征图,下路为低分辨率特征图,通过交叉融合多分辨率的信息来进行多尺度特征融合,最终在高分辨率特征图预测网络输出;全局深度特征提取模块使用较少的残差块以保证低级特征的提取,残差块将原始的输入信息经过跨层连接与经过后续网络处理的特征逐像素相加。大多数现有的网络是串行的结构,即特征图从高分辨率降至低分辨率再从低分辨率恢复到高分辨率,分辨率的恢复过程可能会造成信息的损失,而并行的交叉融合可以规避分辨率的恢复过程,在整个过程中都保持高分辨率的表达,通过交叉融合多分辨的特征,形成更加丰富的高分辨率表示,对于关键点的热图预测更为精确。残差模块,对于彩色图像,先使用两组堆叠的卷积-池化模块提取低级特征,并使用关键点的2D热图作为监督,引导彩色特征提取聚焦在手部关键点附近,如图1所示,将彩色图像中得到的手部关键点的低级特征送入残差模块;多模态特征融合模块,如图4所示,先将深度特征与彩色特征进行级联,通过3×3的卷积和归一化操作平衡两种模态特征的尺度,通过全局平均池化将Sigmoid操作计算特征向量作为特征选择的权重,与原特征图逐像素相乘再相加,起到特征选择和结合的作用;分支并行干扰消除模块,对经所述多模态特征融合模块融合后的特征进行特征提取和最终关节3D位置的回归。如图5所示,网络的三个分支:“thumb-block”、“index-block”、“others-block”分别对应于手部的三个分区:大拇指、食指和其余手指,对于每个分支的特征提取模块,使用简单的堆叠卷积和最大池化操作,经过两层全连接层,得到每个分支对应手部关节点的3D坐标,在训练过程中,作为分支网络的监督引导各部分特征的学习。而在特征提取过程中不可避免会有其他部位的信息污染,为了获得更加纯净的特征表达,本发明借鉴通信理论中并行干扰消除理论,通过特征图相减,得到拇指、食指、其余三指的强化特征。图1中灰色框中“HM”表示训练过程中使用关节2D热图(HeatMaps)作为中间层的监督进行特征学习的引导,有助于网络的训练。实施例2本发明提供了一种基于RGBD融合网络的手部姿态估计方法,包括:步骤1:准备数据集;步骤11:获取图像数据集;所述图像数据集包括彩色图像和深度图像;本实施例中,选用开源共享的FAHD数据集,该数据集是帝国理工大学建立的面向任务操作的数据集,以第一人称视角拍摄人手操作物体的日常动作,提供21个关节点的3D位置标注。图像数据使用RealsenseSR300以第一人称视角采集厨房、社交、工作三种环境下与26种物体交互的45种日常动作,如倒牛奶、开瓶子、写字等,通过贴附在手上的磁传感器系统自动标注。该数据集提供与深度图像对应的彩色图像,共计10万个RGB-D帧。彩色图像分辨率为1920×1080,深度图像分辨率为640×480。步骤12:数据对齐;由于彩色图像与深度图像分辨率差距过大,视场也不同,导致深度图像与彩色图像像素点不能一一对应,需要将二者配准,将深度图像上像素点转换到世界坐标下,计算与彩色图像像素点的投影关系,将彩色图像投影到深度空间;将手部深度图像大小调整为96×96,深度值归一化到[-1,1],同比例裁剪配准后的彩色图像,彩色图像像素值归一化到[-1,1],作为网络的输入,对应关节坐标标注同样做归一化处理;如图2所示为彩色图像与深度图像配准对齐后的图像示例。步骤13:数据分集,FAHD数据集共采集26种物体的45种动作,将FAHD数据集划分成训练集和测试集;在划分训练集和测试集时,图像数据集提供按动作1:1进行训练集与测试集的划分,以及按物体进行1:1比例划分训练集和测试集,测试集中的物体不包含在训练集中。步骤2:将数据集中的图像数据输入到RGBD融合卷积神经网络进行学习和预测;步骤21:全局深度特征提取模块和残差模块分别对深度图像和彩色图像进行特征提取;全局深度特征提取模块对深度图像进行特征提取的过程如下:步骤211:将经过预处理后的分辨率为96×96的深度图像进行两次下采样得到48×48和24×24大小的深度图像;步骤212:分别对每个尺度的输入深度图像进行特征提取,其中,大尺寸的输入图像使用堆叠的3×3的卷积核提取特征,并用4×4的最大池化层进行特征的降采样,中等尺寸的输入图像经过堆叠的3×3的卷积层提取特征,之后使用2×2的最大池化层对特征图进行降采样,小尺寸的输入图像直接经过一层3×3的卷积层;步骤213:将三种尺寸的深度图像得到的浅层特征进行级联融合,作为所述全局深度特征提取模块的输入。步骤22:多模态特征融合模块将提取的特征进行融合后形成全局特征,送入分支并行干扰消除模块;步骤23:所述分支并行干扰消除模块进行手部分支的特征提取,得到强化的手部分支特征,用于最终的关节位置预测。全局深度特征提取模块如图3所示,使用较少的残差块以保证低级特征的提取,残差块将原始的输入信息经过跨层连接与经过后续网络处理的特征逐像素相加,这一操作在提升网络训练效果的同时使低级特征更为丰富。在训练过程中,使用手部关节的24×24大小的2D热图对全局深度特征提取模块进行中间监督,引导其关注手部关节点周围的特征,以保证检测精度。步骤3:设计损失函数,所述损失函数定义如下:其中,第一项和分别为全局特征提取模块中深度图像处理支路和彩色图像处理支路的2D热图损失函数项,计算每个关节点预测的热图与真值热图的误差,权重α平衡各级损失函数项的作用强度,在本实施例中,权重系数均设为0.005;其中,J表示关节点总数,hi表示预测的第i个关节的热图,Hi表示第i个关节的真值标签的热图,u和v分别表示热图的横、纵像素坐标,L1表示第一级监督计算每个关节点预测的热图与真值的热图之间逐像素的l2范数的平方;第二个损失函数项L2位于手部分支并行干扰消除模块中,具体定义为:其中,c表示网络预测的关节点3D坐标集合,C表示真实的关节点3D坐标集合,各支路关节点个数J与不同数据集关节标注规则相关,Jthumb=5,Jindex=4,Jothers=12,α、β、γ是平衡各项的权重因子第三个损失函数项位于干扰消除之后的最终的分支之后,定义了每个分支预测的关节点的3D坐标与真值标注之间距离,其定义与L2相同;步骤4:构建网络并进行网络训练,网络使用python2.7基于tensorflow1.3构建,在配有GTX1080显卡的主机上进行训练和测试;步骤41:网络采用端到端的方式进行训练,所有的权重被随机初始化为均值0,标准差为0.01的正态分布;步骤42:使用Adam算法进行梯度的反向传播计算,初始学习率设为0.001,每一轮训练学习率衰减为上一轮的0.96倍;除输出层之外所有的全连接层都使用随机失活防止过拟合,随机失活比率设为0.5,批大小为64,训练70轮。步骤5:通过评价指标对测试结果进行分析;所述评价指标包括平均关节误差和正确检测帧比率。平均关节误差为测试集中每一帧图像的所有关节位置的预测值与真值标签之间的3D距离;正确检测帧比率为所有关节点的误差低于某个阈值的帧数所占总体测试集的比例。本发明以FAHD数据集为实验案例进行手部关节检测,并与Holi-CNN方法的结果进行比较,如图6和表1所示。图6中展示了手与物体交互环境下,如各种姿态下拿水杯、瓶子、写字等,第一视角的手部姿态检测结果,蓝色线表示真值,红色线表示本发明提出方法的估计结果,本发明提出的方法检测的手部姿态与深度图像显示的姿态一致,关节点分布与真值标注重合度很高。按照物体1:1划分训练/测试集和按照动作1:1划分训练/测试集两种情况进行对比,对于平均关节误差指标,本发明提出的方法均取得更高的精度(表1)。对于正确检测帧率指标,在按动作分集情况下,在几乎所有的误差阈值范围下,本发明得到的结果均优于现有方法;在按物体分集情况下,当误差阈值大于14mm时,本发明得到的结果优于现有方法,当误差阈值小于14mm时,本发明得到的结果略低于Holi-CNN方法,但本发明方法具有更好的泛化能力,在未知物体上的检测精度为18.25mm,优于Holi-CNN的19.84mm的检测精度。表1手部姿态估计的平均精度方法按物体分集(mm)按动作分集(mm)Holi-CNN19.8414.34本发明18.2510.79最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。当前第1页1&nbsp2&nbsp3&nbsp

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值