团队介绍
作者:Huogen Wang Pichao Wang Zhanjie Song Wanqing Li
论文发表于ICCVW2017上,Pichao Wang是澳大利亚University of Wollongong大学的Phd,去年就参加Chalearn2016@ICPR竞赛了,取得了挺不错的成绩。本文不是今年他们最好成绩对应的论文,感觉像是调参的副产品。
论文总结
本来是奔着segmentation去看的,没想到如此简单,本文的实验部分也不充分,只给出了最终的结果,没有中间模块的对比实验,差评。论文像是个技术报告,最大特点就是用了多个提取特征的方法,以及不同的神经网络,最后把各个网络的结果融合在一起。(这好像是打比赛常用的技巧)另外文章的introduction和related work写的不错。
论文framework
- 图1: 论文的总体框架
- temporal segmentation: 利用RGB和Depth图片分别微调训练VGG16网络(在ImageNet预训练),进行二分类(动作和过渡)。在实际操作中,将标注的分界点周围的8帧作为过渡帧,其余为动作帧。这里面明显动作帧较多,存在数据不平衡问题,不知道他们是不是对动作帧进行下抽样,减少动作帧数使其和过渡帧一致。
- gesture recognition: 分为对RGB和depth分别处理。
- RGB: 利用之前的方法(Frequency-tuned salient region detection, CVPR2009)提取RGB的显著性区域,论文中说这样能消除背景的干扰。原始的RGB和显著性区域的RGB区域分别训练自己的C3D-CLSTM-SSP网络。如下图所示
- depth, 利用rank pooling将一个序列的图片压缩为一张包含运动信息的图片(Dynamic image networks for action recognition,CVPR2016)DDIs, 和稍加一个变化的DMDI, 说是保留了更多的运动信息,之后分为微调训练ResNet-50
- RGB: 利用之前的方法(Frequency-tuned salient region detection, CVPR2009)提取RGB的显著性区域,论文中说这样能消除背景的干扰。原始的RGB和显著性区域的RGB区域分别训练自己的C3D-CLSTM-SSP网络。如下图所示
实验
实验只有一个最终结果,我实际想看到网络四个分支分别起到多大作用,另外也没有定量分析temporal segmentation的结果。最终实验结果如下:
总结
该论文分别使用了C3D, CLSTM, VGG16, ResNet50等经典网络,平均融合各个方法,得到最终实验结果。
得到的一点点启发:
- 利用Frequency-tuned salient region detection可得到RGB图片的显著性区域,可以减少一定的噪声干扰
- 利用rank pooling将depth的序列图片压缩为一张运动图,转化为2D-CNN的图片分类问题。
补充
如果是面向应用的研究,例如手势识别,如果能给出在特定计算平台的运算速度就更好了。这样能看算法是否有实际应用价值。
Reference
[1]:Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Computer vision and pattern recognition, 2009. cvpr 2009. ieee conference on. IEEE, 2009: 1597-1604.
[2]:Bilen H, Fernando B, Gavves E, et al. Dynamic image networks for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3034-3042.