深度学习方法实现红外图片中人物动作识别

最新推荐文章于 2024-08-14 22:35:10 发布

我是一只胖海燕

最新推荐文章于 2024-08-14 22:35:10 发布

阅读量4.2k

点赞数 1

本文提出了一种使用深度学习方法来识别红外图像中人物动作的方案，尤其是在环境辅助生活系统中对‘倒’这一关键动作的识别。通过建立一个6类动作的红外数据集，包含5278个样本，使用CNN实现6种动作的分类，取得了87.44%的分类准确率。热红外相机不受环境光线影响，适合作24小时监控，为老年人和病患提供帮助。文章贡献在于创建红外动作识别数据集和基于CNN的动作识别模型。

摘要由CSDN通过智能技术生成

deep learning approach for human action recognition in infrared images

总的来说，个人觉得这篇文章比较冗长，读起来比较晦涩，用词很刁钻，原文翻译一定比我的长一倍不止。介绍了很多已知的基础知识，方法上并没有很大程度上的创新，不过背景意义很深刻，很有应用价值，实验思路清晰。

题目：深度学习方法实现红外图片中人物动作识别

摘要：基于环境辅助生活系统的人类动作识别，目的是为老弱病残等需要帮助的人提供帮助，已经引起了各学科研究者的兴趣。研究主要针对自动，微创和隐私保护系统的发展。尽管在战略方面十分受欢迎，但是热红外相机在环境辅助生活方面还没有过多的探索。这篇文章展开了热红外相机在环境辅助生活方面的应用并讨论了它在人类活动识别方面的杰出表现。特别需要主义的是在对“倒”这一动作的描述。在这篇文章中，建立了一个6分类的红外动作识别数据集，6类动作分别包括“走”，“站”，“坐在椅子上”，“坐在面前有桌子的椅子上”，“倒在面前的桌子上”和“倒在/躺在地上”。这个数据集包含5278张样本图片，它们从每30秒热红外视频的随机取样，代表6种动作分类。为实现具有鲁棒性的动作识别，我们设计了这种有监督的两层卷积神经网络结构来实现6种动作分类，已经在手动选取的复杂测试数据中实现了87.44%的分类准确率。

1.背景意义：由于很多应用领域的潜力，行为识别是计算机视觉研究领域中的活跃区域，如在赌博，动画，自动监控，机器人，人机交互和智能家居等系统。随着人口老龄化和核心家庭的增加，为了舒适安全的生活，基于辅助系统的技术发展迅速。这一现象还导致了活动分析研究的蓬勃兴起，比如老年护理和病人健康检测。通常情况下，病人要求穿戴很多不同的传感器或使用多传感器融合设备来说明环境辅助生活的日常情况，比如环境检测器，摄像机，可穿戴传感器和呼叫器。但是，给身体穿戴传感器并不总是一个最合适的选择，它限制了人的舒适感和自由。另外，这些传感器主要就个人情况来帮助个体，因此使得它很难去检测其他复杂的活动包括人类目标或者人人交互。这已经超越了基于动作识别的视觉范畴。但是，摄像机要求适合的照明条件来使其更有效地发挥功用并且也可以作为个人日常行为的监视。热红外相机成像原理依靠身体本身的热辐射，因此外界照明是独立工作的。这样反过来使得他们适应24小时监控。随着技术的发展，从前主要严格作为战略应用的热红外相机现在作为COTS传感器应用在很多广告领域。在这篇文章中，我们介绍了在环境辅助生活系统中使用热红外相机进行动作识别。

近几年，人类动作识别在计算机视觉研究领域越来越重要。人类动作识别研究主要是利用可见光视频将人类动作识别作为一个类型模式识别问题，该问题包含两部分：特征提取和分类学习。在特征提取阶段，研究者已经提出了多种多样提取时间和空间特征的方法，比如：HOG,SIFT,Harris3D,cuboid,STIP,HOG3D。接下来进行了一系列这些方法的简介：在一篇文章中，作者说明了SIFT描述符特征表示方法的使用，该方法用在袋子里的单词框架对静图中人类动作识别进行描述。……（我只关注CNN，这里就不说了）同时，另一类识别方式比如深度学习从动物表皮视觉研究开始也兴起了。事实上卷积神经网络在视觉识别正在变得越来越流行并且也表明了它杰出的表现。CNN可以从热成像图片中自学习的区分特征，因此不需要那些传统的特征（这块具体内容我不了解，是对传统算法的一种描述）。这种模型给出了一种从特征提取到动作分类的端到端的一条龙服务。

事实上，基于人类动作识别的红外成像受到人们的关注是有证据的，这些证据来源于近几年报道的突发事件。所有这些重复的动作，如跑，跳，走都可以用步态能量图像来识别。它有效的表现了一张图片中整个动作序列。尽管步态能量图是一个整体的表现，这个整体表现可以提供给一个简单快速的解决方案。但是它在背景减法过程中容易出错而且不能抓住内部运动或形状。然后介绍了一堆该法的应用。最近，一篇文章利用热红外图片应用CNN实现了室外可疑人员的识别。CNN的输入是一张图片，这张图片是经过剪辑的人没有背景。并且使它对背景敏感。考虑CNN学习多种动作的灵活性和一经训练反应迅速的特点，我们提出了它在辅助生活系统中进行人类动作识别的应用。本文的贡献主要表现在两方面：建立了一个针对辅助生活系统的人类动作识别热红外数据集和构建了一个基于CNN的网络去识别这些动作。人类的热红外标志更加多样并且依赖环境和目标变量。它们也有缺憾，就是缺乏边缘和边界信息。在热红外数据集生成过程中最大可能的差异已经获取，由于热红外图片的典型特征，需要了解CNN对热红外图片的表现和特征提取的属性。这也是本文工作的一部分，我们提出的CNN模在背景和它的变换中型具有很好的鲁棒性，这些得到的背景变换也是本次热红外图片实例中最大的挑战。

2.实验设计和数据集

在本文中，我们提出使用热红外成像技术代替传统的可视化成像传感器实现人类动作识别，尤其是对于“跌落”这一动作的识别。热红外相机感应环境中物体的热辐射而成像，因此使得图片可以不受光线变化的干扰。它们也可以全天候监控而不需要任何额外的照明。另外，一个人的热属性和环境的热属性可以提供很多额外的信息，未来的研究可以考虑应用这些信息，不如发热诊断，情绪压力评估，火灾事故等等。因此，我们提出了热红外相机在辅助生活系统中的应用。为了验证基于CNN的动作识别方法，使用了很多热红外图片序列，在辅助生活系统背景下，这些图片可以很有代表性的展示了室内人类动作。由于缺乏可获得的公共基准的数据集，我们建立了人类动作识别红外数据集，该数据集主要包含四种动作分类：站，走，坐，跌落。对坐进行了细分：坐在桌子前和坐在椅子上，对跌落也进行了细分：趴在桌子上和跌倒在地上。具体说明见图。室内环境中大多数典型的跌落场景在本文中都有考虑。比较典型的，如果一个人正在工作或吃饭，在所有可能情况下，他的面前都有一张桌子。这就是为什么考虑由坐立到跌落这一事例。同样的，一个人也有可能在走和站立的情况下跌落因此也将这种情况考虑到分类中。选择的这6种分类代表了个体在家庭和工作环境中监控活动。为了丰富数据的多样性，实验执行在不同变化目标的背景下，一天中不同的时间段，实验者要变换姿势，室内其他目标的出现遮挡行形况也被考虑其中。数据集总共包含了5278个图像样本，这些图片来自热红外相机对52个志愿者的拍摄。

考虑很多实验变量是为了使得训练的网络模型最大化符合现实情况。设计变量的选择随着他们的变换而有细微的差异。数据集建立的过程近两个月，从于参与者形成口头约定到签订协议。进行实验的52名志愿者包括34名男性和18名女性。与这些志愿者达成协议，在装相，步态，衣着等方面做一些改变。志愿者组的年龄段在19-28岁之间。因为我们需要收集大量跌落的场景画面，我们可以选择年轻的志愿者装作残疾人或老人是合乎道德的，因为很难要求老人和残疾人来完成这些动作。这些志愿者的实验动作是值得信任的并且他们生动逼真的动作和现实场景相似。我们尽可能使志愿者特征最大化，这些特征包括宽度，高度，身体结构和穿衣风格等。数据集随机收集了一天不同时间段，不同光照情况，不同场景下的图片，比如室内办公场景，家庭场景，步行街场景等。在一个典型的家庭和办公场景中，考虑摄像机和人之间的距离在10英尺范围内。但是在一些场景中，距离可以轻微变化，稍近或稍远。有意引入姿态变换使得网络稳定。不是通过拍照抓取志愿者的每个动作，而是对志愿者做的每个动作录取20-30秒视频。这样做帮助我们获取志愿者自然状态下的动作和姿态。如图。在20-30秒内，志愿者可能做几百个目标动作来描述动作，我们选取其中15个最合适的画面而且这些画面是不相似的来作为红外基础数据。尽管是在表演动作，我们也能够抓住个体的微小变化和装相。因此包括更多类内变化可以提升指定的CNN结构的训练程度。

3.提议的方法

我们提议的基于动作识别的深度学习方法涉及红外图片的预处理和训练卷积神经网络。预处理包括均值归一化和调整图片大小。一个基于多级神经网络的监督学习叫做卷积神经网络。CNN有能力去学习输入图片在多阶段不变的特征。任何CNN模型的核心是卷积和池化。依靠使用这些卷积池化单元，可以建立任何复杂的CNN结构。在传统的全连接网络中学习过程的发生依靠前向输入图片和反向传播误差。单一的卷积池化单元细节如图。

用三段分别介绍了卷积层，非线性激活函数，池化层

提出的结构：输入32*32经过均值归一化的灰度图像，我们也实验将输入图片变换大小，32*32，64*64，96*96，其中32*32最合适有更好的准确率系统的输出是6个得分，这个得分指的是每一特定分类的概率，其中概率最高的分类看作是该动作。设置隐藏层数量为1，2，3层进行对比，发现设置一个隐藏层的效果最好。第七层全连接层包含128个神经元。最后是6个节点的输出层。整个结构共需要26854个参数。我们现有的红外数据集对于训练任何深度学习的机构数量有限，并且可能导致过拟合。为避免由于数据量小造成的过拟合，dropout是一个应用的很流行的规范方法。

介绍dropout方法的原理，对比了dropout比率为0，30%，50%的损失率结果。显然dropout50%的时候结果最好。为避免梯度下降应用了RMSprop优化算法，该优化算法适应学习率。

总结了一下上述的实验结果。

4.结果于讨论

这部分介绍了软硬件环境，采用了两种方式进行了验证，K-fold cross validation和手动拆分训练集和验证集方法。但是并没有展示K-fold cross 方法的结果，对比了传统方法和CNN方法的准确率，显然拼不过CNN。还用混淆矩阵分析了一通，计划以后要较少错误分类，具体咋减少没有说。

5.总结了一下，实验方法，实验结果，分析等。计划以后并入时间信息，应用CNN进行时间和空间的分析。我理解就是把CNN进一步应用于视频。