文献总结《Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM》

最新推荐文章于 2024-01-17 15:44:13 发布

littlecute123

最新推荐文章于 2024-01-17 15:44:13 发布

阅读量867

点赞数

分类专栏：文献总结文章标签：手势识别 LSTM CNN 3D CNN

本文链接：https://blog.csdn.net/qq_39493825/article/details/90138646

版权

1 篇文章 0 订阅

订阅专栏

更多内容可访问我的主页。(https://wangpei.ink/)

这是G. Zhu等人于2017年发表于IEEE ACCESS的一篇关于深度学习用于手势识别的文献，提出了3D卷积神经网络与卷积LSTM的结合使用，进行时空特征提取。

手势识别旨在识别和理解人体的有意义的运动，有效的手势识别仍然是一个非常具有挑战性的问题，部分原因是文化差异，各种观察环境，噪声，图像中手指相对较小的尺寸，词汇外动作等。

传统方法：隐马尔可夫模型，粒子滤波，有限状态机和连接模型。
由于上述具有挑战性的因素，手工制作的特征不能完全满足实际手势识别系统的要求。

思路：手势识别通常基于视频或图像序列–>时间信息在手势识别过程中起着关键作用–>复杂的背景会给手势识别带来更多挑战–>同时同步学习时空特征将为手势识别提供更多信息。

这三种代表性的方法分别或不同阶段地学习时空特征。而本文提出的方法则是同步的。

在这里插入图片描述

本文主要贡献：

A. 基于人工提取特征的方法
B. 基于神经网络的方法

3D-CNN
1. 参照C3D网络设计（具体看论文《learning spatiotemporal features with 3D convolutional networks》）；
2. 使用Batch normalization 加速训练；
3. 3D-CNN组件只能学习短时空特征；
B. Convolutional LSTM
1. 传统的全连接LSTM不需要考虑空间相关性；
2. 卷积LSTM（ConvLSTM）同时具有输入状态和状态转换的卷积结构，能够针对时空关系很好地建模；
3. ConvLSTM的输入X1,X2…Xt，神经元状态C1,C2,C3…Ct和隐藏层状态H1,H2,H3…Ht以及各个门(gates)都是三维张量，并且最后两维是空间维度；
  
  公式：
  
  这里的*表示卷积。
Spatial Pyramid Pooling
1. 3-D CNN仅在空间域上以小的4的比例缩小图像，并且ConvLSTM组件不改变特征图的空间大小
2. 空间金字塔池SPP插入ConvLSTM和全连接（FC）层之间以降低维度
Multimodal Fusion(多模式融合)
1. 采用后期多模态融合，并通过平均值融合不同网络的预测得到最终的预测分数。

先进行输入预处理：方法一：将每个手势序列分成具有固定长度的剪辑，但是一个剪辑不能表示整个手势。方法二：将每个手势序列下采样到固定长度L中。

使用方法二，同时，采用时间抖动策略的均匀采样来增强数据集。

$Idx_i= \frac{S}{L}*(i+jit/2)$

在这里插入图片描述

在IsoGD上的实验结果：

在这里插入图片描述

在SKIG的结果：

在这里插入图片描述

本文提出了一种基于三维卷积神经网络和卷积长短期记忆（LSTM）网络的多模式手势识别方法。结果表明，同时学习时空特征比连续或单独学习手势识别的空间和时间特征更合适。
三维卷积神经网络适合学习短时空特征，而卷积LSTM网络适合长时空学习。

关注