【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Mr. Anonymous

已于 2022-04-28 09:52:31 修改

阅读量3.1k

点赞数 2

分类专栏：论文阅读文章标签：计算机视觉视频人工智能

于 2022-04-11 01:14:15 首次发布

本文链接：https://blog.csdn.net/nie_quanxin/article/details/124089692

版权

论文阅读专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Abstract

卷积网络在动作识别领域带来的提升不像图像领域那么大

提出TSN，基于长距离时序建模的思想，结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(video-level supervision)进行视频动作识别。

Introduction

卷积网络在图像分类上取得了巨大的成功，但在视频动作识别上却没有取得相应的大幅度提升（相对传统手工特征）

动作识别主要需要学习视频的两方面信息：appearances 和 dynamics。

卷积网络处理视频动作识别主要受限于两大问题：

1、主流卷积网络捕获appearance信息的能力很强，但捕获长距离时序信息(long-range temporal structure)的能力不足。一些之前的动作识别模型通过固定间隔的密集帧采样(dense temporal sampling with pre-defined sampling interval）来解决这个问题，但这样会导致采样的帧太多，对长视频来说计算量太大。

2、当时的主流动作识别数据集UCF101， HMDB51规模相对较小，对于训练性能很好的卷积网络来说显得不足。

因此，作者在双流网络的基础上研究基于ConvNets的动作识别模型，主要想解决两个问题：

1、在动作识别模型中捕获长距离时序信息

2、使用有限的训练样本训练动作识别模型

作者观察到，连续的视频帧在内容上是高度冗余的，因此密集帧采样没有必要。

提出TSN，主要特点是使用了一种时序稀疏采样策略：使用稀疏采样从长视频中提取短视频段(short snippets)，这种采样是在时序上均匀进行的。然后再使用一个segmental structure来聚合采样出的snippets的信息，以此来进行长距离时序建模。

Method

在这里插入图片描述

Temporal Segment Networks

基于卷积网络的动作识别模型缺乏长距离时序建模能力的原因是：它们仅输入1帧RGB图像和几帧光流，没有获取到整个视频的时序信息。但是有些复杂的动作（例如体育运动）包含多个阶段，需要持续相当长一段时间。

TSN基于双流网络。不同于传统双流网络只接收1帧RGB和几帧光流，TSN在稀疏取样自整个视频的snippets上进行操作，每个snippet都会产生一个初步的动作分类预测，然后把每个snippets的预测形成一个共识(consensus)，作为整个视频的预测(video-level prediction)。

输入视频V，将其分为K（snippet数目，文章中取3）个相同长度的视频段(segment)： ${S_1, S_2, ..., S_K\}$ ，然后建立一系列snippets，TSN作用于snippets上：

$TSN(T_1,T_2,...,T_K)=H(G(F(T_1;W),F(T_2;W),...,F(T_K;W)))$

$T_1,T_2,...,T_K)$ ：snippets序列。每个snippet $T_K$ 是从对应视频段segment $S_K$ 中随机取样(randomly sample)得到，每个segment中采样一个snippet，包括1帧RGB图像和数帧光流。
$F(T_K;W)$ ：是作用在 $T_K$ 上，参数为W的卷积网络，输出该snippet属于每个类的分类score，即一个向量，其分量 $F_i$ 表示该snippet属于第i类的打分。
$G$ : segmental consensus function，将多个snippet的F输出进行合并，获得一个分类consensus，即一个向量，其分量 $G_i$ 表示整个视频V属于第i类的打分。
$H$ ：prediction function，基于consensus预测视频V属于所有分类的概率，这里采用softmax。输出一个向量，其分量 $H_i$ 表示整个视频V经softmax归一化后属于第i类的概率。

采用标准的cross-entropy loss：

$L(y,\textbf{G})=-\sum^C_{i=1}y_i(G_i-log\sum^C_{j=1}expG_j)$

$C$ ：动作类别数目
$y_i$ ：分类i的groundtruth标签
$G_i=g((F_i(T_1),...,F_i(T_K))$ ：分类i的consensus打分，是所有snippet属于第i类的得分经过一个聚合函数(aggregation function) g 得到的。聚合函数g有多种选择：evenly averaging, maximum, weighted averaging。

使用该损失函数可以利用多个snippet的信息通过反向传播优化 $W$ 参数，而不是像之前的动作识别模型仅仅利用了视频中一个snippet的信息。

通过指定分段数 $K$ ，可以建立一个稀疏采样策略，即每段内只取了一个snippet的1帧RGB+几帧光流（而非密集采样），但由于有多个段又覆盖了整个视频的信息，做到了长距离时序建模，同时减低计算量。

Learning

Network Architectures

采用带Batch Normalization 的Inception（BN-Inception）作为building block，改进双流网络。双流网络的输入(每个snippet)是1帧RGB图像和数帧连续光流。

Network Inputs

研究了不同模态的输入，包括原始的RGB+flow双流，RGB difference，和warped optical flow fields。

在这里插入图片描述

Network Training

Cross Modality Pre-training. RGB分支使用ImageNet预训练初始化。flow分支也进行初始化。
Regularization Techniques. 使用BN，partial BN，dropout
Data Augmentation. 除了原有random cropping和horizontal flipping, 添加corner cropping和scale-jittering。

Testing

Evaluation时，从视频中抽取25帧的RGB图像或光流stack，并截取4张corner和1张center，以及其水平翻转，作为数据增强，之后输入网络进行评估。

对双流的RGB和flow分支预测结果取加权平均，权重系数分别是1和1.5。

Experiments

略

Mr. Anonymous

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Temporal Segment Networks: Towards Good Practices for Deep Action RecognitionAbstract卷积网络在动作识别领域带来的提升不像图像领域那么大提出TSN，基于长距离时序建模的思想，结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(video-level supervision)进行视频动作识别。Introduction卷积网络在图像分类上取得了巨大的成功，但在视频动作识别上却没有取得相
复制链接

扫一扫