Action Recognition-Two Stream CNN论文笔记

本文主要针对论文:《Two-Stream Convolutional Networks for Action Recognition in Videos》记录自己的理解。
考虑到视频由空间和时间两个部分组成,空间部分更多表征Appearence信息,比如目标、场景等;而时间部分更多表征Motion信息,包括摄像机的运动或者目标物体的运动信息。所以该网络结构的设计考虑两个部分。
Twostream 网络结构如下图所示:
(1) Spatial stream ConvNet 空间维度,用来处理RGB视频图像。
(2) Temporal stream ConvNet 时间维度,用来处理密集光流图像。
两路CNN分别对输入的视频(input video)进行分类,最后直接对两个网络的class score进行fusion(融合方法包括直接平均和在堆叠的softmax上直接训练一个SVM)
这里写图片描述
如上图所示,我们可以看到两路CNN结果基本相同,除去在temporal ConvNet 去掉第二个normalization(LRN局部响应归一化) 层,减少内存的损耗。
文章中的一些trick:
1、动作识别的数据集UCF101和HMDB51包含的视频太少,将会导致过拟合问题,因此文中考虑了以下几种策略:(1) 直接在HMDB51数据集上进行训练;(2) 先在UCF101数据集上做预训练,用训练好的模型做finetune;(3) 在HMDB51上增加了从UCF101数据集中挑选的78个classes,用重新构建的数据集来训练;(4) 在HMDB51和UCF101两个数据集上做multi-task learning;最终的做multi-task learning 的效果是最好的,如下图所示:

这里写图片描述

2、
个人感觉论文中比较核心的内容大概就是上面这些。关于用光流做为temporal网络的输入,这部分的内容可以详细看论文,此外,还有multi-task learning部分的trick。
总结:动作识别方向目前基于two-stream的工作还是很多的,是深度学习在该方向应用的一大主流方法。
实验结果:
这里写图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值