论文笔记-Temporal segment network:towards good practices for deep action recognition

2017年07月13日 15:14:15

1-摘要

      卷积神经网络在图片的视觉识别方面已经取得了巨大的成功,然而关于视频的动作识别,成果还不是那么明显。这篇文章意在发现一种能够针对视频的行为识别设计有效的卷积神经网络结构并能够在有限的训练样本下学习这些模型。这篇文章最主要的贡献:Temporal Segment Network(TSN)--一种新型的基于视频的行为识别的网络结构。它将稀疏时间采样策略和基于视频的监督相结合,使用整个视频支持有效的学习。本文的另一个贡献就是利用TSN网络结构学习卷积神经网络在视频数据方面的处理。

2-Introduction

      卷积神经网络在基于视频的行为识别方面难以展开的原因有两方面,一方面:long-range时间结构在理解行为视频上起着重要作用,但是主流的神经网络结构通常只关注appearences和short-term运动。另一方面:在实际中,训练深度卷积神经网络需要较大的训练样本来使得性能最佳,但是这方面的数据资源有限。

这些挑战都促使我们来解决以下两个主要问题:(1)如何设计一种有效的基于视频的网络结构能够学习视频的表现进而捕捉long-range时间结构。(2)如何在有限的训练样本下学习卷积神经网络模型。

      本文设计的TSN网络结构能够在一段长的视频序列中通过稀疏采样的方法提取短片断(short snippets),这些样本在时间维度上服从均匀分布,因此,利用segmental structure从采样得到的片段中搜集信息。

two-stream卷积神经网络的4种输入形式:RGB image,stacked RGB difference,stacked optical flow field,stacked warped optical flow field。在UCF101和HMDB51两个数据集上进行实验验证所提出方法的有效性。

3-Action Recognition with Temporal Segment Network

      首先介绍TSN的基本网络结构,接着研究在TSN结构下学习two-stream卷积神经网络的good practices,最后介绍针对学到的two-stream卷积神经网络的测试细节。

     3.1 Temporal Segment Network

     对于一个输入的视频,将被分成K个segments,从每个segment中随机地选择一个short snippet。将选择的snippets通过two-stream卷积神经网络得到不同snippets的class scores,最后将它们融合。

    3.2 Learning Temporal Segment Network

   Network Architecture:网络结构在神经网络的设计中是要考虑的重要因素,很多工作表明网络结构的深度能够改善物体识别的性能。我们选择Batch Normalization(BN)-Inception结构设计two-stream 卷积神经网络:空间stream卷积神经网络作用在single RGB images,时间stream卷积神经网络以stacked optical flow field 作为输入。

    Network Inputs:期初,two-stream卷积神经网络只将RGB images和stacked optical flow field分别作为时间和空间stream的输入。为了增强网络的泛化能力,我们将在原来基础上增加RGB difference和warped optical flow field。

    Network Training: 由于行为识别的数据集较小,因此在训练深度卷积神经网络的时候将会面临过拟合的问题,我们设计了几种策略在训练卷积神经网络来防止过拟合。(1)Cross modality Pre-training:当训练样本较少时,预训练是一种较好的训练神经网络防止过拟合的方法。(2)Regularization Techniques:BN可以用来解决covariate shift 的问题。在学习的过程中,BN会估计每个batch的均值和方差,并将这些值转换成标准高斯分布,这种操作将会加速训练过程的收敛,但是在转化的过程中会导致过拟合。因此在初始化预训练模型以后,我们选择freezeBN层的均值和方差(除去第一层外)。由于optical flow和RGB images的分布不同,第一个卷积层的激活值会有不同的分布,我们需要进行相应的均值和方差的再评估,我们把这种方法成为局部BN。同时,我们在BN-Inception结构中global pooling层加一个额外的dropout层来减少过拟合的影响。spatial stream卷积神经网络的dropout比例是0.8,Temporal stream 卷积神经网络的dropout比例是0.7。(3)Data Augementation:random cropping+horizontal flipping + scale jittering

4-Experiments

Models and code at https://github.com/yjxiong/temporal-segment-networks

Accuracy 和Loss曲线可视化:











行为识别(HAR)调研

行为识别调研 一、介绍、背景 二、难点 1.类内和类间数据的差异。对于很多动作,本身就具有很大的差异性,例如不同人不同时刻的行走动作在速度或步长上就具有差异性。不同动作之间又可能具有很大...
  • Ddreaming
  • Ddreaming
  • 2016年09月25日 15:55
  • 5258

视频理解论文和数据集

转自:https://github.com/sujiongming/awesome-video-understanding Awesome Video Understanding Un...
  • haima1998
  • haima1998
  • 2017年12月15日 15:21
  • 161

双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读

前几天刚放出来的一篇paper:Spatiotemporal Residual Networks for Video Action Recognition,又将HMDB51数据库和UCF101数据库的...
  • u014381600
  • u014381600
  • 2017年03月02日 09:41
  • 2448

论文笔记一Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Abstract: Deep convolutional networks 对图像处理有很好的识别效果,但对视频中的动作识别,传统方法中的优势并没有体现出来。 Paper的目...
  • tangtangtang_1
  • tangtangtang_1
  • 2017年08月11日 22:16
  • 482

SSN:Temporal Action Detection with Structured Segment Networks

SSN:structured segment networks,通过结构化时序金字塔对每一个动作实例的时序结构建模。在金字塔的顶端,引入一个判别模型,包括两个分类器:动作分类和完整度区分,它能有效的将...
  • qq_20720317
  • qq_20720317
  • 2017年08月25日 10:38
  • 630

论文阅读:CVPR2016 Paper list

CVPR2016 accepted paper list
  • xizero00
  • xizero00
  • 2016年05月12日 19:04
  • 32226

ICCV2017 论文浏览记录

之前很早就想试着做一下试着把顶会的论文浏览一遍看一下自己感兴趣的,顺便统计一下国内高校或者研究机构的研究方向,下面是作为一个图像处理门外汉在浏览完论文后的 觉得有趣的文章: ICCV2017 论文浏...
  • qq_25819827
  • qq_25819827
  • 2017年11月07日 16:23
  • 5014

视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://gi...
  • zhangjunhit
  • zhangjunhit
  • 2017年09月20日 15:45
  • 342

视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets

Towards Good Practices for Very Deep Two-stream ConvNets http://yjxiong.me/others/action_recog/ ht...
  • zhangjunhit
  • zhangjunhit
  • 2017年09月15日 15:48
  • 310

Action Recognition

Action Recognition最近关注了行为识别的领域,这个领域主要任务是视频分类,输入一个短视频,经过训练出来的分类器,得到正确的类别。但是一个视频如果存在多个行为,那么这个任务将会变成,输入...
  • qq_20791919
  • qq_20791919
  • 2017年09月18日 12:25
  • 419
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:论文笔记-Temporal segment network:towards good practices for deep action recognition
举报原因:
原因补充:

(最多只允许输入30个字)