Temporal Action Detection with Structured Segment Networks
首先文章待解决的问题:
1、以端到端的方式很难解决长的视频
2、之前的方法既没有提供动作中不同阶段(例如开始和结束)的显式建模,也没有提供评估动作完整性的机制。
文章是结合了延续了TSN的主要方法(稀疏采样),使用proposal+分类的模式,但是在时间维度显式建模,引入structured temporal pyramid pooling(STPP)对整个proposal生成一个全局的表征,最后再对proposal进行分类和判别完整性,也就是文章所讲的SSN网络。另外文章还提出了一种生成proposal的方法——temporal actionness grouping (TAG)。
3. Structured Segment Network
Proposal结构化段网络框架(SSN)如图2所示。以一段视频和一组时序动作提名作为输入,输出一组预测的行为实例,每个实例包括其标签及时间范围。
整个过程大致如下:首先,需要用proposal方法生成一组时长不同的时序提名(包含开始和结束时间点)(见section 5);然后,将每个proposal分为三个阶段,为每阶段提取特征表示,联合所有表征聚合为整个视频的表征;最后,类别分类器和完整性判别器分别进行判别。
3.1. Three-Stage Structures(三阶段结构化)
这里将segment表示为“段”,将snippet表示为“片段”
一个视频可以表示为T个片段 ,一个片段包含连续的几个帧作为整体,其特征是结合了RGB图像和光流堆栈(用的是双流网络的方法)。给定N个proposal
,其中每个proposal
由开始时间
和结束时间
组成。为了保证能得到一个完整的proposal,扩充每个proposal:
; <