时序动作提案生成 Temporal Action Proposal Generation 论文阅读

整理一些时序动作提案生成 Temporal Action Proposal Generation 的论文

CVPR2017 SST:Single-Stream Temporal Action Proposals
ICCV2017 TAG:Temporal Action Detection with Structured Segment Networks
ICCV2017 TURN:Temporal Unit Regression Network for Temporal Action Proposals
ECCV2018 CTAP:Complementary Temporal Action Proposal Generation
ECCV2018 BSN:Boundary Sensitive Network for Temporal Action Proposal Generation
CVPR2019 MGG:Multi-granularity Generator for Temporal Action Proposal
CVPR2019 GTAN:Gaussian Temporal Awareness Networks for Action Localization
ICCV2019 BMN:Boundary-Matching Network for Temporal Action Proposal Generation
AAAI2020 ActionDBG:Fast Learning of Temporal Action Proposal via Dense Boundary Generator
AAAI2020 RapNet:Accurate Temporal Action Proposal Generation with Relation-Aware Pyramid Network
ECCV2020 BSN+2Regularization:Bottom-Up Temporal Action Localization with Mutual Regularization

完全监督时序动作定位论文阅读 Fully Supervised Temporal Action Localization
弱监督时序动作定位论文阅读 Weakly Supervised Temporal Action Localization

[AAAI2020] Fast Learning of Temporal Action Proposal via Dense Boundary Generator


基于概率序列的自下而上的方法,如BSN,它生成开始和结束的时间概率序列,匹配概率峰值生成proposal,但是每个时间点只包含少量的局部信息,大概3~4s,因而无法处理复杂的活动和杂乱的背景,模糊边界定位不精确。
我们提出了密集边界生成器(DBG),利用全局提案特征来预测边界图,并探索动作感知特征进行动作完整性分析。
本文主要创新点在于比BSN多一个Action-aware Completeness Regression。
在这里插入图片描述
Video Representation仍然是利用3D卷积网络提取视频的RGB特征和光流特征。
Dual Stream BaseNet 用于处理上面的低级特征,基本上也是各种融合重组,具体参数如下:
在这里插入图片描述
网络的关键模块在于Action-aware Completeness Regression和Temporal Boundary Classification
首先橙色的提案特征生成器分别生成两种特征组,上面一种L×L×32,L是视频特征序列的长度,32的由来如下,分别对提案的开始和结束扩展容纳更多的上下文,开始,动作和结束区域各采样8,16,8个点,这也是祖传处理方式了。应用smooth L1 loss 监督这个二维分数图,预测动作完整性分数。
特别注意的是,作者处理原始视频特征得到两个 特征序列,一个是L×1的特征向量,称之为high-level 动作分数特征。一个是L×128的low-level 双流特征。因此下面的时序边界分类模块得到L×L×128×32的四维特征图,可以理解为每个提案采样32个点,每个点特征128维。
最后将四维特征图处理为两个开始和结束的概率置信度图,用binary classification loss 监督预测时序边界。
在这里插入图片描述
后处理部分就是融合 开始分数×结束分数×完整性分数 作为提案的分数,再利用softnms检索N个提案。

[AAAI2020] Accurate Temporal Action Proposal Generation with Relation-Aware Pyramid Network

本文特点:anchor-based + long range context

现有的方法在获取全局上下文信息和同时定位不同持续时间的行动方面存在困难。
作者提出RapNet,解决两个关键问题一个是同时检测多尺度的动作,另一个是提取长范围的上下文。个人认为长范围上下文和anchor-based方法略有冲突。

在这里插入图片描述
着重解释Relation-aware module
类似于nonlocal结构,对全局上下文压缩,相当于channel-wise注意力,与原始视频特征自适应地校准语义特征。其中较为novel的是双向relation:past-future和future-past。由于视频序列的时序特性,我们不仅需要捕获全局上下文信息,而且在定位未修剪视频中的活动实例时,还需要考虑两个片段的视觉内容之间的定向关系的作用。 因此,我们可以通过关系感知模块将定向关系定义为以下两种形式
在这里插入图片描述
当前snippet xi
在这里插入图片描述
在这里插入图片描述
关系感知模块通过定义的级联形式对两个局部模式之间的双向关系进行建模 在这里插入图片描述

[CVPR2019] MGG:Multi-granularity Generator for Temporal Action Proposal

本文思想是segment proposal 和 frame actionness 互补。
基于概率序列的方法往往生成的边界是high precision,但对于长视频片段,置信度分数很低,会缺失很多真实动作片段,而造成low recall。
在这里插入图片描述
Introduction写得不错。BSN基于概率序列,利用局部信息预测边界,再排序所有提案。CTAP利用滑动窗口与组合动作分数互补,生成提案。这两种方法是多阶段训练的,而且忽略了时序位置信息或时序顺序信息。
Architecture
特别地,作者利用transformer里的位置编码,对视频特征进行了处理,得到position embedding,与原始视频特征结合。整体结构还是比较清晰的,SPP使用U型结构是图像分割的老会员了。
在这里插入图片描述

Coming Soon

[ECCV2018] CTAP:Complementary Temporal Action Proposal Generation

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值