红外图像中人体动作识别的深度学习方法

摘要：以人类行为识别为基础的环境辅助生活(AAL)系统，旨在为老年人和残疾人提供援助，已经引起了各个学科的研究人员的兴趣。研究主要集中在开发自动化、最低侵入性和隐私保护系统。虽然热红外(IR)相机在战略领域很受欢迎，但在AAL领域的研究还不多。本文介绍了红外摄像机在AAL领域的应用，并讨论了红外摄像机在人体动作识别(HAR)中的性能。特别关注的是其中一个最关键的行动-下降。在这篇参考文献中，我们生成了一个包含6个动作类的红外图像数据集——行走、站立、坐在椅子上、坐在前面有桌子的椅子上、跌倒在前面的桌子上以及跌倒/躺在地上。该数据集由5278个图像样本组成，这些样本是从热视频中随机抽取的，每个样本大约30秒，代表六个动作类。为了实现鲁棒的动作识别，我们设计了两个卷积层的监督卷积神经网络(CNN)结构来对6个动作类进行分类。人工选择的复杂试验数据分类精度达到87.44%。

1.引言
2.实验设计与数据集
3.使用的方法论
我们提出的基于深度学习的动作识别系统包括对红外图像的预处理并将其输入卷积神经网络。预处理包括图像的平均归一化和大小调整。

与传统的全连通神经网络一样，该学习是通过输入图像的前馈和误差的反向传播来实现的。单一卷积池单元的详细信息如下所示，并在图3中进行了描述。在这里插入图片描述

#3.1使用的结构
本工作中报告的架构灵感来自于LeNet架构，该架构因其在字符识别方面的成功而流行。由于用于训练深度神经网络的数据有限，我们选择了一个简单而有效的架构。图4所示的架构由两个卷积池单元、一个扁平层和两个完全连接的层组成。
在这里插入图片描述
输出层由六个神经元或节点组成，这些神经元或节点对应于这六类动作。该系统的输入是一个大小为32的灰度图像?这已经被标准化作为预处理的一部分。我们做了不同输入图像大小的实验32*32,64 64,9696年,采用32 *32如表2所示，显示出更好的准确性。系统的输出是每个输出节点输出的6个分数(每个输出节点对应一个特定的动作类)。这里的分数是特定类出现的概率。将概率最高的节点分类为在输入图像中执行的动作。

第一层是一个大小为3232的单通道输入图像，它有32个33的卷积，步长为2组成。在第一层卷积后产生32个1515的特征图。第三层是池化层，其中最大池化采用22，步长为2，将每个特征图的大小减小到77.第四层又是一个卷积层，有32个33滤波器，步长为1，产生32个55的特征图。这一层之后是一个最大池化层，它进一步将每个特征图的大小减少到22，在这个阶段，我们不能做卷积，因此，该体系结构仅限于两个卷积层。在这一层之后，神经元被压平，最终形成128个神经元。我们进行了实验，在全连接层中，隐藏层数从1到3不等，具有单一连接层的结构准确率最高，如表2
在这里插入图片描述第7层是由128个神经元组成的全连接层，然后是另一个全连接层，这是由6个神经元组成的输出层，对应6类动作。在此体系结构中要学习的参数总数为26,854。我们拥有的红外数据集相对较小，用于训练任何深度学习体系结构，可能会导致过度匹配的问题。为了处理由于数据较少而导致的过拟合问题，本文采用了一种常用的正则化方法。

通过随机使一些神经元为零并对网络进行训练，实现了神经元的退出。每次我们随机丢弃神经元，我们都在训练数据上训练一个更小、不同的网络，神经元之间没有协适应，这就防止了过度拟合。测试期间不使用Dropout。在实验验证的基础上，为了避免过拟合，我们在每个卷积层和输出层之前的128个神经元的致密层上都选择了50%的dropout。虽然在卷积层上应用Dropout并不常见，但Srivastava等人(2014)强调，卷积层上的Dropout有帮助，因为它为更高的全连接层提供了噪声输入，防止它们过度匹配。在我们的实验中也观察到了同样的现象。当训练100个epoch时，我们注意到使用卷积后的dropout提供了更好的正则化，避免了过度拟合，如图5所示的训练损失vs验证损失图所示。网络训练的另一个重要步骤是使用优化算法对神经网络进行优化。广义下降算法是一种常用的下降算法。在本文中，我们应用了RMSprop (Tieleman)
& Hinton, 2012)自适应学习速率法。
RMSprop(均方根支柱)是一个非常有效的优化器，它使用最近梯度的大小对梯度进行标准化。

在红外数据库上对网络性能进行了实验评价，并对网络参数进行了优化。这里需要注意的一个有趣的地方是输入图像的输入尺寸相对较小时32*32，我们进行了96、64和32种不同尺寸的实验，但在32种尺寸下获得了最好的性能，这对于精确的动作识别来说是一个非常小的尺寸。这可能是由于红外图像中缺乏微妙的信息(它们代表热对比度)，我们正在观察整个身体的动作，而不是涉及复杂变化的动作。
在这里插入图片描述

4.结果和讨论

该系统已在基于python的Keras (Chollet, 2015)深度学习库上实现，并在HP Z840 worksta- tion的GPU - NVIDIA Quadro K4200上进行了训练和测试。为了评估系统的性能，我们对生成的IR HAR数据集进行了分类精度计算。

采用了两种不同的验证方法:K折交叉验证和手工将数据集分割为训练、验证和测试数据。图6为训练后的CNN逐层输出。为了简单起见，只显示了16个卷积特征图，而不是全部32.

K-折交叉验证。进行了5倍交叉验证。每条折线大约包含1055幅图像，每条折线用于测试一次，用于训练4次。在训练每个折叠之前，随机地重新初始化权重，然后进行训练。采用5倍交叉验证的二维CNN结构的平均精度约为99.04%。由于我们的图像数据集是从视频序列中获得的，所以有可能重复出现各种图像帧，而这些帧的描述往往有非常微小的变化。此外，由于数据是随机打乱和分裂在k倍，会有很多情况下，训练和测试是在类似或非常轻微的变化图像帧，这将导致如此高的准确性。为了保证系统的稳定性，以及在算法没有看到的新图像上的性能，我们手工将数据分解为训练、验证和测试数据，从而生成了一个更强的数据集，确保测试使用的是一组完全不同的独立动作图像集。这是通过使用不同的人员为每个单独的行动类进行培训、验证和测试来实现的。

将5278个图像样本的数据集进行人工分割，分为2844个训练图像、1255个验证图像和1179个测试图像。
通过使用不同的人员进行测试，保证了测试数据的复杂性，并选择了背景和姿态不同的较难用例，以确保系统的鲁棒性。表3列出了各个action类中图像的详细信息。
在这里插入图片描述
结合广泛使用的特征描述符，将学习方法与传统的浅层学习方法进行了比较，-局部二进制模式（LBP）和方向梯度直方图(HOG)，和分类器-贝叶斯分类器、K近邻分类器和支持向量机分类器。对半径为8的圆对称邻域内24个点的26个特征维的均匀圆形LBP向量进行了积分。使用了9个方向(8,8)像素的HOG特征向量，每个单元格(2,2)个单元格，得到324个dimen- sion。这些方法的分类精度如表4所示。结果表明，所提出的深度学习方法比传统方法的测试精度高87.44%，最接近的竞争对手是HOG-SVM，准确率为85.9%。
在这里插入图片描述由本文提出的CNN方法得到的测试数据的混淆矩阵如表5所示。从混淆矩阵可以看出，主要的错误分类之一是关于“站立”和“行走”。这是可以理解的，因为在走路的时候，特别是在帧的时候，人的脚很有可能是非常近的，就像一个人站着的时候一样，从而导致错误的分类，如图7所示。

此外，“坐在椅子上”和“坐在前面有桌子的椅子上”也有很多错误的分类，这在很大程度上是由于图片上相似的特征，导致上身姿势匹配。然而，在AAL的背景下，这些错误的分类并不那么重要。主要的问题是对正常下降和正常下降的错误分类。表5突出显示了所有这些情况。正常组36例(26例坐椅，10例站立);正常组24例(24例坐椅)。在未来，我们计划进一步减少错误分类。
在这里插入图片描述

5.结论
在这项工作中，我们展示了在老年护理和监督的背景下，使用IR图像和2D-CNN架构的自动化动作识别。据报道，6个动作类课程的正确率为87.44%，包括走路、站立、坐在椅子上、坐在前面有桌子的椅子上、跌倒在前面的桌子上以及跌倒/躺在地上。研究结果表明，基于红外成像的动作识别技术是一种很有前途的AAL系统识别方法。在这项工作中，我们能够识别站在地上或倒在地上的最终动作。今后，我们将扩大我们的制度，纳入对过渡行动的承认，即从站着的位置下降，并在站着和已经下降之间。CNN以一种相对容易的方式提供了这种可伸缩性，以包含更多的输出(“action”)类。同时，为了提高复杂动作的识别精度，我们打算讨论将时间信息纳入其中的可能性，并报告将CNN应用于空间和时间的可能性。