论文笔记-Temporal segment network:towards good practices for deep action recognition

原创 2017年07月13日 15:14:15

1-摘要

      卷积神经网络在图片的视觉识别方面已经取得了巨大的成功,然而关于视频的动作识别,成果还不是那么明显。这篇文章意在发现一种能够针对视频的行为识别设计有效的卷积神经网络结构并能够在有限的训练样本下学习这些模型。这篇文章最主要的贡献:Temporal Segment Network(TSN)--一种新型的基于视频的行为识别的网络结构。它将稀疏时间采样策略和基于视频的监督相结合,使用整个视频支持有效的学习。本文的另一个贡献就是利用TSN网络结构学习卷积神经网络在视频数据方面的处理。

2-Introduction

      卷积神经网络在基于视频的行为识别方面难以展开的原因有两方面,一方面:long-range时间结构在理解行为视频上起着重要作用,但是主流的神经网络结构通常只关注appearences和short-term运动。另一方面:在实际中,训练深度卷积神经网络需要较大的训练样本来使得性能最佳,但是这方面的数据资源有限。

这些挑战都促使我们来解决以下两个主要问题:(1)如何设计一种有效的基于视频的网络结构能够学习视频的表现进而捕捉long-range时间结构。(2)如何在有限的训练样本下学习卷积神经网络模型。

      本文设计的TSN网络结构能够在一段长的视频序列中通过稀疏采样的方法提取短片断(short snippets),这些样本在时间维度上服从均匀分布,因此,利用segmental structure从采样得到的片段中搜集信息。

two-stream卷积神经网络的4种输入形式:RGB image,stacked RGB difference,stacked optical flow field,stacked warped optical flow field。在UCF101和HMDB51两个数据集上进行实验验证所提出方法的有效性。

3-Action Recognition with Temporal Segment Network

      首先介绍TSN的基本网络结构,接着研究在TSN结构下学习two-stream卷积神经网络的good practices,最后介绍针对学到的two-stream卷积神经网络的测试细节。

     3.1 Temporal Segment Network

     对于一个输入的视频,将被分成K个segments,从每个segment中随机地选择一个short snippet。将选择的snippets通过two-stream卷积神经网络得到不同snippets的class scores,最后将它们融合。

    3.2 Learning Temporal Segment Network

   Network Architecture:网络结构在神经网络的设计中是要考虑的重要因素,很多工作表明网络结构的深度能够改善物体识别的性能。我们选择Batch Normalization(BN)-Inception结构设计two-stream 卷积神经网络:空间stream卷积神经网络作用在single RGB images,时间stream卷积神经网络以stacked optical flow field 作为输入。

    Network Inputs:期初,two-stream卷积神经网络只将RGB images和stacked optical flow field分别作为时间和空间stream的输入。为了增强网络的泛化能力,我们将在原来基础上增加RGB difference和warped optical flow field。

    Network Training: 由于行为识别的数据集较小,因此在训练深度卷积神经网络的时候将会面临过拟合的问题,我们设计了几种策略在训练卷积神经网络来防止过拟合。(1)Cross modality Pre-training:当训练样本较少时,预训练是一种较好的训练神经网络防止过拟合的方法。(2)Regularization Techniques:BN可以用来解决covariate shift 的问题。在学习的过程中,BN会估计每个batch的均值和方差,并将这些值转换成标准高斯分布,这种操作将会加速训练过程的收敛,但是在转化的过程中会导致过拟合。因此在初始化预训练模型以后,我们选择freezeBN层的均值和方差(除去第一层外)。由于optical flow和RGB images的分布不同,第一个卷积层的激活值会有不同的分布,我们需要进行相应的均值和方差的再评估,我们把这种方法成为局部BN。同时,我们在BN-Inception结构中global pooling层加一个额外的dropout层来减少过拟合的影响。spatial stream卷积神经网络的dropout比例是0.8,Temporal stream 卷积神经网络的dropout比例是0.7。(3)Data Augementation:random cropping+horizontal flipping + scale jittering

4-Experiments

Models and code at https://github.com/yjxiong/temporal-segment-networks

Accuracy 和Loss曲线可视化:











版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

行为识别(HAR)调研

行为识别调研 一、介绍、背景 二、难点 1.类内和类间数据的差异。对于很多动作,本身就具有很大的差异性,例如不同人不同时刻的行走动作在速度或步长上就具有差异性。不同动作之间又可能具有很大...

论文笔记一Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Abstract: Deep convolutional networks 对图像处理有很好的识别效果,但对视频中的动作识别,传统方法中的优势并没有体现出来。 Paper的目...

论文阅读:CVPR2016 Paper list

CVPR2016 accepted paper list
  • xizero00
  • xizero00
  • 2016年05月12日 19:04
  • 28361

[Thu, 9 Jul 2015 ~ Tue, 14 Jul 2015] Deep Learning in arxiv

人脸关键点定位;视频行为识别;caffe multi-gpu with openmpi

Video Analysis相关领域介绍之Action Recognition(行为识别)

这篇文章投稿在极视角公众号,微信链接 随着深度学习技术的发展,以及计算能力的进步(GPU等),现在基于视频的研究领域越来越受到重视。视频与图片最大的不同在于视频还包含了时序上的信息,此外需要的计...

行为识别相关资料

行为识别调研 一、介绍、背景   二、难点 1.类内和类间数据的差异。对于很多动作,本身就具有很大的差异性,例如不同人不同时刻的行走动作在速度或步长上就具有差异性。不同动作之间又可能具...

计算机视觉、机器学习相关领域论文和源代码大集合--持续更新……

计算机视觉、机器学习相关领域论文和源代码大集合--持续更新…… zouxy09@qq.com http://blog.csdn.net/zouxy09   注:下面有project网站的大部分...
  • zouxy09
  • zouxy09
  • 2013年01月29日 00:07
  • 152273

segment fault 段错误 (core dumped)的起因分析!

很久一致被这个问题,这里试着去理解理解,首先写一个程序:int main() {      int *p=(int *)malloc(0);      *p=10;      printf("...

C++向量Vector模板的实现

在项目中需要使用向量的时候,可以使用C++自带的vector.h来实现向量的存储,也可以自己实现向量的类。。 下面给出自己定义的向量类,需要什么函数都可以自己定义,是不是来的很方便呢。。。。: /...

SPP-net论文笔记《Spatial Pyramid Pooling in Deep Convolutional Network for Visual Recognition》

1. Introduction         在之前物体检测的文章,比如R-CNN中,他们都要求输入固定大小的图片,这些图片或者经过裁切(Crop)或者经过变形缩放(Warp),都在一定程度上导致图...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:论文笔记-Temporal segment network:towards good practices for deep action recognition
举报原因:
原因补充:

(最多只允许输入30个字)