时序动作定位基本知识

爱发呆的WWT

已于 2023-09-09 13:50:00 修改

阅读量3.7k

点赞数 6

分类专栏：时序动作定位文章标签：计算机视觉人工智能深度学习

于 2022-11-09 21:14:04 首次发布

时序动作定位专栏收录该内容

14 篇文章

订阅专栏

时序动作定位基本知识

本文非原创，仅为知识整理，部分内容来自以下链接

Temporal Action Detection (时序动作检测)综述_星落秋风五丈原的博客-CSDN博客_时序动作检测综述

时序动作检测/定位(Temporal Action Detection)(Temporal Action Localization)-约40篇论文阅读笔记_Louis210的博客-CSDN博客_时序动作检测

https://baijiahao.baidu.com/s?id=1713584138450335810&wfr=spider&for=pc

https://ieeexplore.ieee.org/abstract/document/9062498

一、任务背景：

视频理解中的一个基础领域：动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)和视频 Embedding。
视频理解：旨在通过智能分析技术，自动化地对视频中的内容进行识别和解析。
动作识别：识别出视频中出现的动作，通常是视频中人的动作。
时序动作定位：可以看作由两个子任务组成，一个子任务是预测动作的起止时序区间，另一个子任务是预测动作的类别。
视频 Embedding：目标是从视频中得到一个低维、稠密、浮点的特征向量表示，这个特征向量是对整个视频内容的总结和概括。

二、基本问题：

时序动作定位的主要挑战是如何从海量的伴随动作同时出现的共现信息中检索微妙的人类动作。

一方面指出时序边界的模糊性是共现信息主导了真实的动作内容，造成不准确的边界预测。

另一方面，完全监督设置下，边界标签包含的场景等信息使得模型过度依赖这些共现信息检索动作。过度依赖共现信息也会造成误分类。

三、研究思路：

基于滑动窗的算法：这类算法的基本思路是预先定义一系列不同时长的滑动窗，之后滑动窗在视频上沿着时间维度进行滑动，并逐一判断每个滑动窗对应的时序区间内具体是什么动作类别。
基于候选时序区间的算法：第一阶段产生视频中动作可能发生的候选时序区间; 第二阶段逐一判断每个候选时序区间的类别并对候选时序区间的边界进行修正。最终将两个阶段的预测结果结合起来，得到未被剪辑视频中动作的类别和起止时刻预测。
自底向上：首先局部预测视频动作开始和动作结束的时刻，之后将开始和结束时刻组合成候选时序区间，最后对每个候选时序区间进行类别预测。
对时序结构信息建模的算法：SSN(Structured Segment Network，结构化视频段网络)算法 (Zhao et al., 2020) 对动作不同的阶段 (开始、过程、结束) 进行建模，SSN 不仅会预测候选时序区间内的动作类别，还会预测候选时序区间的完整性，这样做的好处是可以更好地定位动作开始和结束的时刻
逐帧预测的算法：CDC (Convolutional-De-Convolutional networks，卷积 - 反卷积网络)算法 (Shou et al., 2017) 可以对未被剪辑的视频逐帧预测动作的类别，这种预测粒度十分精细，使得对动作时序区间边界的定位更加精确。
单阶段算法：如 SSAD、SS-TAD 和 GTAN。

四、经典模型：

S-CNN(2016)
- 是第一个利用3D ConvNet进行多阶段过程，在野外未剪辑的长视频中进行时序动作定位。
- 用不同尺寸的的滑动窗口来生成多种大小的视频段，再用多阶段网络（Segment-CNN）来处理。
- 引入了一个有效的多阶段CNN框架，以提出候选分段、识别动作并定位时间边界。最后一个非极大值抑制（NMS）来移除重叠片段并完成预测。
TURN（2017）
- (TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals)：单元回归网络
- SCNN中采用滑窗找proposal，如果想要得到准确的结果，就需要增大窗口之间的重叠度，这样导致计算量极大。
- 为了减小计算量，增加时序定位精度，本文借鉴faster-rcnn引入边界回归的方法：将视频分为等长短单元，做单元水平的回归。
- 主要贡献:(1)提出了一种利用坐标回归生成时间候选区段的新方法。(2)速度快(800fps)。(3)提出了一种新的评价指标AR-F。
BSN（2018）
- BSN(Boundary Sensitive Network，边界敏感网络)(Lin et al., 2018b)是自底向上的时序动作定位算法的一个实例，BSN 获得了 2018 年 ActivityNet 时序动作定位竞赛的冠军和百度综艺节目精彩片段预测竞赛的冠军。
- 问题在于效率不高，语义信息不足。
BMN（2019）
- 引入了边界匹配（Boundary-Matching）（BM）机制来评估密集分布提案的置信度分数，该机制将提案视为起始和结束边界的匹配对，并将所有密集分布的BM对组合到BM置信图中。基于BM机制，我们提出了一种高效的端到端提案生成方法，称为边界匹配网络（BMN），它可以同时生成具有精确时间边界和可靠置信度得分的提案。BMN的两个分支在统一的框架中联合训练。
Actionformer(2022)
- 第一个Transformer-based的检测，single-stage anchor-free
- 将局部自注意适应于未剪辑视频中的时间上下文模型，对输入视频中的每一时刻进行分类，并回归其相应的动作边界。
- 该模型使用标准分类和回归损失进行训练，可以在单帧中定位动作瞬间，而无需使用action proposals或预定义的锚定窗口（anchor windows)。
- 通过pretrained on Kinetics的two-stream I3D来提取视频特征

五、其他

基准数据集：
- THUMOS14：包含413个未修剪的视频，包含20类动作。
- ActivityNet-1.3：一个大型的动作数据集，包含200个活动类和大约20,000个超过600小时的视频。
评价指标：
- tIoU（temporal Intersection over Union）：时间上的交并比
- AR（average recall）：时序动作提案生成的评估指标。
- mAP（mean Average Precision）:均值平均精度