Large-scale Multimodal Gesture Segmentation and Recognition based on Convolutional Neural Networks

最新推荐文章于 2022-07-09 00:00:22 发布

流星逐月

最新推荐文章于 2022-07-09 00:00:22 发布

阅读量798

点赞数

分类专栏： gesture recognition 文章标签： paper geture

本文链接：https://blog.csdn.net/u010106759/article/details/78545927

版权

gesture recognition 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

团队介绍

作者：Huogen Wang Pichao Wang Zhanjie Song Wanqing Li

论文发表于ICCVW2017上，Pichao Wang是澳大利亚University of Wollongong大学的Phd，去年就参加Chalearn2016@ICPR竞赛了，取得了挺不错的成绩。本文不是今年他们最好成绩对应的论文，感觉像是调参的副产品。

论文总结

本来是奔着segmentation去看的，没想到如此简单，本文的实验部分也不充分，只给出了最终的结果，没有中间模块的对比实验，差评。论文像是个技术报告，最大特点就是用了多个提取特征的方法，以及不同的神经网络，最后把各个网络的结果融合在一起。（这好像是打比赛常用的技巧）另外文章的introduction和related work写的不错。

论文framework

网络结构图是的冯绍峰
- 图1: 论文的总体框架

temporal segmentation: 利用RGB和Depth图片分别微调训练VGG16网络（在ImageNet预训练），进行二分类（动作和过渡）。在实际操作中，将标注的分界点周围的８帧作为过渡帧，其余为动作帧。这里面明显动作帧较多，存在数据不平衡问题，不知道他们是不是对动作帧进行下抽样，减少动作帧数使其和过渡帧一致。
gesture recognition: 分为对RGB和depth分别处理。
- RGB: 利用之前的方法（Frequency-tuned salient region detection, CVPR2009）提取RGB的显著性区域，论文中说这样能消除背景的干扰。原始的RGB和显著性区域的RGB区域分别训练自己的C3D-CLSTM-SSP网络。如下图所示
- depth, 利用rank pooling将一个序列的图片压缩为一张包含运动信息的图片（Dynamic image networks for action recognition，CVPR2016）DDIs, 和稍加一个变化的DMDI, 说是保留了更多的运动信息，之后分为微调训练ResNet-50

实验

实验只有一个最终结果，我实际想看到网络四个分支分别起到多大作用，另外也没有定量分析temporal segmentation的结果。最终实验结果如下：
这里写图片描述

总结

该论文分别使用了C3D, CLSTM, VGG16, ResNet50等经典网络，平均融合各个方法，得到最终实验结果。
得到的一点点启发：

利用Frequency-tuned salient region detection可得到RGB图片的显著性区域，可以减少一定的噪声干扰
利用rank pooling将depth的序列图片压缩为一张运动图，转化为２D-CNN的图片分类问题。

补充

如果是面向应用的研究，例如手势识别，如果能给出在特定计算平台的运算速度就更好了。这样能看算法是否有实际应用价值。

Reference

[1]:Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Computer vision and pattern recognition, 2009. cvpr 2009. ieee conference on. IEEE, 2009: 1597-1604.
[2]:Bilen H, Fernando B, Gavves E, et al. Dynamic image networks for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3034-3042.