video analysis 论文阅读-SSN

本文深入探讨了视频分析中的Structured Segment Network(SSN),它解决了长视频的端到端处理问题,通过三阶段结构化、时间金字塔池化和行为完整性分类器进行动作检测。SSN采用稀疏采样降低计算复杂度,并提出Temporal Actionness Grouping (TAG)方法生成时空提案。
摘要由CSDN通过智能技术生成

Temporal Action Detection with Structured Segment Networks

首先文章待解决的问题:

1、以端到端的方式很难解决长的视频

2、之前的方法既没有提供动作中不同阶段(例如开始和结束)的显式建模,也没有提供评估动作完整性的机制。

文章是结合了延续了TSN的主要方法(稀疏采样),使用proposal+分类的模式,但是在时间维度显式建模,引入structured temporal pyramid pooling(STPP)对整个proposal生成一个全局的表征,最后再对proposal进行分类和判别完整性,也就是文章所讲的SSN网络。另外文章还提出了一种生成proposal的方法——temporal actionness grouping (TAG)。

3. Structured Segment Network

Proposal结构化段网络框架(SSN)如图2所示。以一段视频和一组时序动作提名作为输入,输出一组预测的行为实例,每个实例包括其标签及时间范围。

整个过程大致如下:首先,需要用proposal方法生成一组时长不同的时序提名(包含开始和结束时间点)(见section 5);然后,将每个proposal分为三个阶段,为每阶段提取特征表示,联合所有表征聚合为整个视频的表征;最后,类别分类器和完整性判别器分别进行判别。

3.1. Three-Stage Structures(三阶段结构化)

这里将segment表示为“段”,将snippet表示为“片段”

一个视频可以表示为T个片段 ,一个片段包含连续的几个帧作为整体,其特征是结合了RGB图像和光流堆栈(用的是双流网络的方法)。给定N个proposal  ,其中每个proposal 由开始时间 和结束时间 组成。为了保证能得到一个完整的proposal,扩充每个proposal: ; <

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值