video analysis 论文阅读-SSN

最新推荐文章于 2022-10-28 11:48:54 发布

X.mw

最新推荐文章于 2022-10-28 11:48:54 发布

阅读量1.1k

点赞数

分类专栏：视频理解

本文链接：https://blog.csdn.net/X_m_w/article/details/104738456

版权

本文深入探讨了视频分析中的Structured Segment Network（SSN），它解决了长视频的端到端处理问题，通过三阶段结构化、时间金字塔池化和行为完整性分类器进行动作检测。SSN采用稀疏采样降低计算复杂度，并提出Temporal Actionness Grouping (TAG)方法生成时空提案。

摘要由CSDN通过智能技术生成

Temporal Action Detection with Structured Segment Networks

首先文章待解决的问题：

1、以端到端的方式很难解决长的视频

2、之前的方法既没有提供动作中不同阶段(例如开始和结束)的显式建模，也没有提供评估动作完整性的机制。

文章是结合了延续了TSN的主要方法（稀疏采样），使用proposal+分类的模式，但是在时间维度显式建模，引入structured temporal pyramid pooling(STPP)对整个proposal生成一个全局的表征，最后再对proposal进行分类和判别完整性，也就是文章所讲的SSN网络。另外文章还提出了一种生成proposal的方法——temporal actionness grouping (TAG)。

3. Structured Segment Network

Proposal结构化段网络框架（SSN）如图2所示。以一段视频和一组时序动作提名作为输入，输出一组预测的行为实例，每个实例包括其标签及时间范围。

整个过程大致如下：首先，需要用proposal方法生成一组时长不同的时序提名（包含开始和结束时间点）（见section 5）；然后，将每个proposal分为三个阶段，为每阶段提取特征表示，联合所有表征聚合为整个视频的表征；最后，类别分类器和完整性判别器分别进行判别。

3.1. Three-Stage Structures（三阶段结构化）

这里将segment表示为“段”，将snippet表示为“片段”

一个视频可以表示为T个片段，一个片段包含连续的几个帧作为整体，其特征是结合了RGB图像和光流堆栈（用的是双流网络的方法）。给定N个proposal ，其中每个proposal 由开始时间和结束时间组成。为了保证能得到一个完整的proposal，扩充每个proposal： ; <

最低0.47元/天解锁文章

X.mw

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
video analysis 论文阅读-SSN

Temporal Action Detection with Structured Segment Networks首先文章待解决的问题：1、以端到端的方式很难解决长的视频2、之前的方法既没有提供动作中不同阶段(例如开始和结束)的显式建模，也没有提供评估动作完整性的机制。文章是结合了延续了TSN的主要方法（稀疏采样），使用proposal+分类的模式，但是在时间维度显式建模，引入s...
复制链接

扫一扫

专栏目录