空间注意力机制sam_一种基于注意力机制的神经网络的人体动作识别方法与流程...

一种人体动作识别方法,使用深度卷积子网络和注意力子网络,通过捕捉骨骼关键点提高识别精度。无需手工特征提取,适用于多种数据集,解决了循环神经网络的空间信息处理不足和计算量大的问题。
摘要由CSDN通过智能技术生成

本发明属于计算机视觉领域,具体来说是一种基于注意力机制的神经网络的人体动作识别的方法。

背景技术:

人体动作识别,具有着非常广阔的应用前景,如人机交互,视频监控、视频理解等方面。按目前的主流方法,可主要分为基于rgb数据、深度数据和骨骼数据的人体动作识别。与rgb数据和深度数据相比,骨架数据是更高级的表示形式,并且对视点,位置和外观的变化具有鲁棒性,此外由于骨架关节的复杂时空变化,这是非常具有挑战性的。由于microsoftkinect等经济高效的深度相机和实时骨架估算算法的普及,基于3d骨架的人类动作识别引起了越来越多的关注。

传统的手工提取特征的方法虽然也能够取得不错的准确率,但是要求设计特征的人拥有丰富的经验和娴熟的技巧,而且手工特征在不同数据集上的表现差异很大,所以需要更好的方法来进行人体动作的识别。随着深度学习的进步,卷积神经网络(cnn)和循环神经网络(rnn)在过去几年大放异彩,它们在图片分类,物体检测,自然语言处理等领域取得了突出的进展。并且在最近,注意力机制变得流行,因为它可以关注图片中某些重要的区域,从而提高任务的效果。

目前,基于深度学习的骨架数据的动作识别方法,根据骨架序列如何表示并馈入深度神经网络,可分为两类:基于cnn的方法和基于rnn的方法。

第一种方法是通过对骨架序列进行编码来生成纹理图像,然后将纹理图像馈送到cnn中以进行特征提取和分类。例如,将骨架序列的关节坐标编码为矩阵并相对于整个训练数据集进行标准化,其中骨架关节的三个笛卡尔分量(x,y,z)分别被处理为彩色图像的三个通道(r,g,b)。但是,这种标准化不能保证尺度不变性。

第二种方法是从骨架序列的每个时间步骤中提取特征,并将基于帧的特征馈送到循环神经网络中。最近的注意力模型增强了这种方法,所述注意力模型旨在识别对动作分类任务更具辨别力的身体部位或时间步骤。到目前为止,在已经提出的几种方法中,倾向于过分强调时间信息并低估空间信息,空间注意力往往被忽略。同时,基于lstm、gru等循环神经网络的方法在识别人体动作序列时,依赖于大量的时序计算,这限制了动作序列的处理速度,此外,网络的规模也会随着循环神经网络的引入而大大增加,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值