Large-scale Multimodal Gesture Segmentation and Recognition based on Convolutional Neural Networks

团队介绍

作者:Huogen Wang Pichao Wang Zhanjie Song Wanqing Li

论文发表于ICCVW2017上,Pichao Wang是澳大利亚University of Wollongong大学的Phd,去年就参加Chalearn2016@ICPR竞赛了,取得了挺不错的成绩。本文不是今年他们最好成绩对应的论文,感觉像是调参的副产品。

论文总结

本来是奔着segmentation去看的,没想到如此简单,本文的实验部分也不充分,只给出了最终的结果,没有中间模块的对比实验,差评。论文像是个技术报告,最大特点就是用了多个提取特征的方法,以及不同的神经网络,最后把各个网络的结果融合在一起。(这好像是打比赛常用的技巧)另外文章的introduction和related work写的不错。

论文framework

网络结构图是的冯绍峰
- 图1: 论文的总体框架

  • temporal segmentation: 利用RGB和Depth图片分别微调训练VGG16网络(在ImageNet预训练),进行二分类(动作和过渡)。在实际操作中,将标注的分界点周围的8帧作为过渡帧,其余为动作帧。这里面明显动作帧较多,存在数据不平衡问题,不知道他们是不是对动作帧进行下抽样,减少动作帧数使其和过渡帧一致。
  • gesture recognition: 分为对RGB和depth分别处理。
    • RGB: 利用之前的方法(Frequency-tuned salient region detection, CVPR2009)提取RGB的显著性区域,论文中说这样能消除背景的干扰。原始的RGB和显著性区域的RGB区域分别训练自己的C3D-CLSTM-SSP网络。如下图所示
      这里写图片描述
    • depth, 利用rank pooling将一个序列的图片压缩为一张包含运动信息的图片(Dynamic image networks for action recognition,CVPR2016)DDIs, 和稍加一个变化的DMDI, 说是保留了更多的运动信息,之后分为微调训练ResNet-50

实验

实验只有一个最终结果,我实际想看到网络四个分支分别起到多大作用,另外也没有定量分析temporal segmentation的结果。最终实验结果如下:
这里写图片描述

总结

该论文分别使用了C3D, CLSTM, VGG16, ResNet50等经典网络,平均融合各个方法,得到最终实验结果。
得到的一点点启发:

  1. 利用Frequency-tuned salient region detection可得到RGB图片的显著性区域,可以减少一定的噪声干扰
  2. 利用rank pooling将depth的序列图片压缩为一张运动图,转化为2D-CNN的图片分类问题。

补充

如果是面向应用的研究,例如手势识别,如果能给出在特定计算平台的运算速度就更好了。这样能看算法是否有实际应用价值。

Reference

[1]:Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Computer vision and pattern recognition, 2009. cvpr 2009. ieee conference on. IEEE, 2009: 1597-1604.
[2]:Bilen H, Fernando B, Gavves E, et al. Dynamic image networks for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3034-3042.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值