【论文翻译】Attention in Convolutional LSTM for Gesture Recognition

最新推荐文章于 2024-08-28 08:48:33 发布

页页读

最新推荐文章于 2024-08-28 08:48:33 发布

阅读量3.9k

点赞数 2

分类专栏：人工智能文章标签： Attention in Convolutional LST LSTM

原文链接：http://papers.nips.cc/paper/7465-attention-in-convolutional-lstm-for-gesture-recognition.pdf

版权

人工智能专栏收录该内容

35 篇文章 1 订阅

订阅专栏

论文：http://papers.nips.cc/paper/7465-attention-in-convolutional-lstm-for-gesture-recognition.pdf

Code：https://github.com/GuangmingZhu/AttentionConvLSTM

(NIPS 2018) Attention in Convolutional LSTM for Gesture Recognition

在卷及网络LSTM中用于手势识别的注意力机制

论文核心：

在ConvLSTM基础上加上注意力机制来进行研究。

摘要

卷积长时记忆(Lstm)网络被广泛应用于动作/手势识别，不同的注意机制也被嵌入到lstm或卷积中。LSTM(ConvLSTM)网络本文在前人手势识别体系结构的基础上，结合三维卷积神经网络(3 DCNN)和ConvLSTM，对手势识别的效果进行了探讨。在ConvLSTM中的注意力机制。评估了ConvlTM的几种变体：(a)去除convlstm中的三门卷积结构，(b)在ConvLSTM输入中应用了注意力机制(c)利用通道上的注意力机制重构了输入门(d)利用通道上的注意力机制重构了输出门。评估结果表明：这三个门对时空特征融合的贡献不大，而嵌入在输入门和输出门中的注意机制不能改善特征融合。换言之，ConvLSTM在以空间或时空特征为输入时，随着学习长期时空特征的反复步骤，主要促进了时间融合。在此基础上，导出了一种新的LSTM变体，其中卷积结构只嵌入到LSTM的输入-状态转换中。LSTM变体的代码是公开的。

1. 介绍

长期短期记忆(LSTM)[1]递归神经网络被广泛应用于序列数据的处理[2].自1995年设立以来，已提出了几种LSTM的变体[3]。通过将完全连接的LSTM(FC-LSTM)扩展到在input-to-state和state-to-state转换两者中具有卷积结构,

Shi等人[4]提出了卷积LSTM(ConvLSTM)网络来处理降水预报序列图像。此后，ConvLSTM被用于行动识别[5，6]，手势识别[7-9]和其他领域[10-12]。当使用LSTM处理视频或序列图像时，二维卷积神经网络(2DCNN)的空间特征通常在作为LSTM输入前进行矢量化[13,14]。然而，二维空间特征映射可以直接输入到ConvLSTM中，而不会丢失空间相关信息。例如，AlexNet/VGG-16的空间特征图[5、10]或三维CNN(3DCNN)[7,8]的时空特征图作为convlstm的输入。ConvLSTM最初是以图像作为降水预报的输入，因此需要空间卷积来学习时空特征。然而，当ConvLSTM以空间卷积特征代替图像输入时，ConvLSTM的卷积结构对特征融合有多大的贡献？对于空间域中的特征映射的每个元素，是否需要有不同的门值？

ConvLSTM中卷积结构的影响可在三种情况下进行分析。(A)ConvLSTM以原始图像作为输入。在这种情况下，卷积结构对于学习时空特征，在[4]中得到验证。(B)ConvLSTM以2 DCNN的特征图为输入。在这种情况下，卷积结构的效果并不总是很显著。直觉上，ConvLSTM的三个门可以看作是特征映射融合的加权机制。然而，空间域特征映射的每个元素的不同的门值似乎不具有空间注意的功能。为此，文[5]在ConvLSTM的输入中引入了软注意机制[15]，以使ConvLSTM将注意力集中在显著的空间特征上。由输入的注意机制引起的改进(如[5]的表1所示)也可以在某种程度上验证以上权利要求。(c)CONVVLSTM以3DCNN的特征映射为输入。由于3DCNN网络已经学习了时空特征，所以convlstm的门更不可能具有空间关注的功能。本文将对最后一个案例进行深入的分析。

根据我们先前发布的"3DCNN+ConVLSTM+2DCNN"体系结构[8]，我们构建了一个初步的"Res 3D + ConvLSTM + MobileNet"体系结构，并导出了convlstm组件的四个变体。在初步"Res 3D + ConvLSTM + MobileNet"体系结构，Res3D[16]的块1-4首先用于学习具有相对大的空间大小的局部短期时空特征图。然后，将两个ConvLSTM层叠加起来，以学习全局的长期时空特征图.最后，利用MobileNet[17]的部分内容来学习更深层次的时空特征图。Res3D和MobileNet块是固定的，ConvLSTM组件被修改为派生出四个变体：(A)通过对输入和前面隐藏的状态执行空间全局平均池来消除门的卷积结构。这意味着三种方法中的卷积运算门被简化为完全连接的操作。输入到状态转换的卷积结构是为了学习时空特征而保留的。(B)将软注意机制应用于convlstm的输入(即，Res3D块的特征映射)。(C)利用通道注意机制重构输入门.(D)利用通道式注意机制重构输出门。

本文不重新评估ConvLSTM作为2 DCNN输入图像或特征的情况，因为[4]和[5]中的实验可以证明上述说法。我们专注于对大规模孤立手势数据集 Jester[ 18 ] 和 IsoGD[ 19 ] 的第三种情况进行评估，因为“3D CNN + ConvLSTM + 2D CNN”结构最初是用于手势识别的。实验结果表明，ConvLSTM的三个门的卷积结构和额外的空间注意机制都不能促进性能的提高。事实上，3 DCNN的输入时空特征已经引起了人们对这些引人注目的空间特征的关注。对ConvLSTM中注意事项的探索导致了一种不同于FC-LSTM和ConvLSTM的新的LSTM变体。具体而言，该变体只将空间卷积引入到输入到状态的转换中，并使其与FC-LSTM中的门保持一致。

2. Attention in ConvLSTM

为了保证文件的完整性，首先描述了初步的"RES3D+ConvlsTM+Mobileenet"结构。然后对convlstm的变体进行了详细的阐述和分析。

图1.“Res3D ConvLSTM MobileNet”架构概述。每个块的输出采用“长度*宽度*高度*通道”的格式。MobileNet独立处理每个时间样本。

2.1初步架构

基于双流或3 DCNN的网络被广泛应用于动作识别，例如著名的TSN[20]、C3D[21]、Res3D[16]和i3D[22]网络。手势识别不同于动作识别。当您只看一次图像时，您无法分辨动态手势的类别。但是，当你看到一个行动的图像，在背景的暗示下，你可能会说出物体和姿势的类别。因此，上述著名的网络不能在不包括多模式融合的情况下，在手势识别方面产生最先进的性能。手势侧重于手部的局部信息和手臂的全局运动。因此，我们首先利用浅层3 DCNN来了解局部短期时空特征.3 DCNN块不需要很深，因为它专注于局部特性。因此，使用了Res3D的修改块1-4。与输入的图像相比，输出特征地图的时间持续时间(或空间大小)仅缩小2(或4)倍。然后，堆叠两层Convlstm网络学习长期时空特征图。ConvLSTM网络不会缩小特征映射的空间大小。因此，时空特征映射仍然具有相对较大的空间大小。MobileNet的顶层(其输入具有相同的空间大小)被进一步堆叠，以学习更深层次的特性。在实验部分，将与上述著名网络进行比较，以说明该体系结构的优势(如图1所示)。

2.2 ConvLSTM的变体

从形式上讲，可将ConvLSTM表述为：

其中 $\delta$ 是sigmoid函数，和是2-D卷积核。输入、单元状态、隐藏状态、候选存储器和门都是3D张量。符号"*"表示卷积运算符，""表示Hadamard积。

输入具有带通道的WxH的空间尺寸，convlstm具有带通道的KxK的卷积内核尺寸。因此，可计算convlm的参数大小：

因为是卷积结构，ConvLSTM的参数尺寸很大。它可以从等式(1)-(6)中得出结论，具有通道的门的空间尺寸为W×H。这意味着这三个门对于处于单元格状态和候选内存的特征映射的每个元素都有独立的值。在这种情况下，ConvLSTM能否通过空间域中不同的门值来关注引人注目的空间区域？为了提供一个答案和消除任何疑问，四种变体ConvLSTM 的构造如下（如图2所示)

（a）移除门的卷积结构

鉴于3 DCNN块的局部时空特征，可以认为3 DCNN块已经注意到了值得注意的具有重要时空价值的空间区域信息。因此，ConvLSTM块可以将重点放在时空特征融合和递归步骤上。门值只需要计算状态的每个特征映射，而不是每个元素。因此，在输入特征和隐藏状态上执行全局平均池，以减少空间维数，从而使每个全连接的操作都可以进行。而不是在门中形成卷积。ConvLSTM的变体可以表述为：

、和的门都是一维向量，因此每个特征映射中的元素都被等式 (14) -（ 15 ）中相同的门值加权。三个门中的卷积结构被简化为全连接的操作。输入到状态转换的卷积结构(如方程13)用于时空特征融合。

为了减少输入到状态转换的参数，使用了深度可分卷积[23]。这将ConvLSTM变体的参数大小减小到

基于变体(a)构建了三个更多的变体，以验证空间关注是否可以改善性能。

（b）注意机制应用到输入中

通过参考文献[5]，我们将空间注意机制应用于等式(8)-(15)操作前的输入。从形式上讲，注意机制可以表述为：

其中是2-D分数映射，是具有K × K × Cin × 1 的核大小的2-D卷积核。变体(b)可通过用替换等式.(8)-(15)中的来构建。该变型的参数尺寸可以被计算为：

（c）在通道上利用注意力机制重构输入门

门和注意机制都需要对输入和隐藏状态执行卷积，如等式(1)-(3)所表示的和方程(17)。这是否意味着门机制具有隐式的注意功能？答案是否定的。特征图空间域中的独立门限值不能确保注意效应，如等式(18)所示。因此，我们重新开始根据注意机制构造输入门。 sigmoid激活函数使门值下降在 0-1 范围内. 除以等式(18)中的总和结果是注意力得分，其和在每个特征信道中为1。这意味着每个特征通道的注意力分数可能远远小于1，并且远低于其他门中的大多数正常门值，给定输入特征映射的大空间大小。因此，需要修改注意机制以匹配闸门中的sigmoid函数范围。在形式上，可以对输入门进行修改，表示为：

其中，是一个二维卷积核，核大小为W×H，通道数为。(22)中的对应于在的通道c中选择的最大元素。换句话说，在等式(22)中的归一化是逐信道执行的。除以最大值而不是总和可确保注意分数分布在0-1的范围内。

ConvLSTM的变式(C)可以通过用等式(21)-(23)表示的新门替换变量(A)的输入门来构造。此变量的参数大小可计算为

(d) 利用在通道上的注意力重建输出门

ConvLSTM的变式(b)在输入特征映射上应用注意机制，而变量(c)在候选内存上应用注意机制。最后，利用cell 状态上的注意机制，构造了ConvLSTM的变式(D)。换句话说，输出门的重构方式与变体(C)中的输入门相同。这些表达式类似于等式(21)-(23)中的表达式。因此为了简化而省略了它们。

3. 实验

在[5]中评价了ConvLSTM从2DCNN作为输入的特征，并且由输入特征的关注机制引起的改进(如[5]的表1所示)。在某种程度上，可以表明门中的卷积结构不能发挥空间注意的作用。由于页面限制，本文只重点讨论ConvLSTM以3DCNN为输入的情况的评估。如前所述，“3DCNN+ConvLSTM+2DCNN”体系结构最初被提出用于手势识别[8]。因此，对ConvLSTM提出的变体在大规模孤立手势数据集Jester[18]和等GD[19]上进行了评估。

3.1数据集

Jester[18]是大量密集标记的视频剪辑的集合。每个剪辑包含由在便携式电脑相机或网络摄像头前面的工作者执行的预定义的手势。数据集包括148,094 RGB视频文件27种手势。这是最大的孤立手势数据集，每个类别平均有超过5 000个实例。因此，这个数据集被用来从零开始训练我们的网络。

IsoGD[19]是一个大规模的孤立手势数据集，包含47，933个RGB+D手势视频，涉及21名受试者的249种手势。该数据集已在2016年[24]和2017年使用[25]ChaLearn LAP大规模孤立手势识别的挑战中被使用。本文的有益效果是，将结果与在挑战中使用的现有技术网络进行了比较。团队在挑战中使用了不同的多模态融合方法。在这种情况下论文只对每种模式进行评估（没有多模态融合），以验证不同深度体系结构的优点。

3.2 实现细节

基本架构如图1所示，Res3D和MobileNet组件是从其原始版本中部署的，但上述2.1节中的修改除外。这两个组件固定在变体之间。将 ConvLSTM 的滤波器号和变体都设置为 256 。

使用原始ConvLSTM或变体的网络首先从零开始在Jester DataSet上进行训练，然后使用ISOGD数据集进行精调以报告最终结果。对于在Jester上的训练，学习速率在总共30轮迭代内遵循一个从0.001到0.000001的多项式衰减。输入为16个视频片段，每个片段包含16帧，空间大小为112×112.采用时间抖动策略[26]的均匀采样对输入进行预处理。在用IsoGD进行微调的过程中，batch size设置为8，时间长度设置为32，每个变体共执行15轮。top-1精度作为评价指标，训练采用随机梯度下降(SGD)方法。

3.3 探索性研究

在图1中使用原始ConvLSTM或四个变体作为ConvLSTM组件的网络分别在Jester和ISOGD数据集上进行评估。评价结果如图所示ED列于表1中。对Jester的评价几乎与变体(B)相同。Jester的类似识别结果可能是由网络容量或可区分性引起的。f数据，因为验证与培训具有可比性。变量(b)的较低精度可指示额外注意机制对输入的无用性，因为3DCNN学习到的时空特征已经引起了人们对引人注目的空间区域的关注。

对于IsoGD上的变式(B)精度较低也可以证明这一结论。精度较低的原因可能是额外的乘法运算在注意力机制上带来额外的优化困难。

在数据集IsoGD上的比较表明，无论识别精度或参数大小和计算消耗如何，变体(A)都优于原始ConvLSTM。减少三门中的卷积结构不会降低网络容量，但能显着地节省内存和计算量。I中嵌入的特定注意机制nput和输出门不能对特征融合做出贡献，但它只会带来额外的内存和计算消耗。这些观察表明，ConvLSTM组件只需要t。当输入特征学习到局部时空信息时，AKE充分利用了其在长期时间融合上的优势。LSTM/RNN在长序列数据处理中有其优越性。处理。从LSTM扩展到ConvLSTM只会增加状态和内存的维数，保持原有的门机制不变。

在输入和输出门中嵌入的特定注意机制不能促进特征融合，但它只会带来额外的内存和计算消耗。这些观测数据演示了当输入特征学习到局部时空信息时，ConvLSTM组件只需充分利用其在长期时间融合上的优势。LSTM/RNN h作为其在长序列数据处理中的优势。从LSTM扩展到ConvLSTM只会增加状态和内存的维数，保持原有的门机制不变。

这种评估导致了LSTM的一个新变体(即convlstm的变体(A)，其中卷积结构只被引入到输入到状态的转换中，而门仍然有原始的全连接的机制。增加的卷积结构使LSTM的变体能够进行时空特征融合。门机制对于长期的时间融合仍然坚持着自己的责任和优势。

3.4 与世界先进水平的比较

表2显示了在IsoGD数据集上现有技术网络的比较结果。2DCNN网络演示了它们在基于图像的应用中的无与伦比的优势，并在特定背景和对象的帮助下，展示它们的动作识别能力。但是，在手势识别的情况下，它们不保持其无与伦比的性能，其中手的细粒度时空特征和臂的全局运动都是重要的。3DCNN网络在时空特征学习中是很好的。但是，长期时间融合的弱点限制了它们的能力。“3DCNN+ConVLSTM+2DCNN”结构充分利用了3 DCNN、ConvLSTM和2 DCNN的优势。所提出的ConvLSTM的变式(A)进一步提高了ConvLSTM的时空特征融合能力，而不增加任何额外的负担。因此，通过充分利用不同网络的固有优势，可以获得最佳的识别结果。尽管所述RE参考[27]报告了在IsoGD上的最新性能，通过融合12个通道（即，四个模态的全局/左/右通道）实现了高精度。所提出的网络获得每种单一模态的最佳精度。这恰恰证明了所提出的体系结构的优越性。

3.5特征图融合的可视化融合

在convlstm中，三栅极的卷积结构的减小对时空特征图融合没有任何副作用。图3显示特征MA的可视化示例P融合伴随复发步骤。从热图中可以看出，最活跃的区域只是反映了手的运动轨迹。它们类似于注意力评分图。这也表明，3 dcn的学习时空特征已经引起了人们对引人注目的空间区域的关注。在使用ConvLSTM融合长期时空特征图时，不需要额外的注意机制。ConvLSTM中三门卷积结构的缩减使得该变体更适用于构造更复杂的深层建筑，因为该变体具有较少的参数和计算量。

4. 结论

本文探讨了注意在卷积LSTM中的作用。我们的评估结果和先前发表的结果表明，ConvLSTM门的卷积结构没有发挥空间注意的作用，即使门对特征映射的每个元素具有独立的权重值，在空间域中也是如此。三门卷积结构的减小导致了更好的精度、较低的参数大小和较低的计算消耗。这产生了LSTM的一个新变体，其中，卷积结构只是在输入到状态的过渡中加入，而门仍然保持着自己的责任和长期的时间融合优势。这使得所提出的变量能够有效地进行时空特征融合，且参数更少，计算量更大。