G-TAD: Sub-Graph Localization for Temporal Action Detection

最新推荐文章于 2024-07-24 20:06:37 发布

StrongerTang

最新推荐文章于 2024-07-24 20:06:37 发布

阅读量3.2k

点赞数 1

分类专栏：视频动作检测文章标签：人工智能深度学习动作检测

本文链接：https://blog.csdn.net/qq_41590635/article/details/105033360

版权

视频动作检测专栏收录该内容

12 篇文章

订阅专栏

提出一种新的动作检测方法G-TAD，利用GCN模型融合多级语义文本信息，将动作检测转化为子图定位问题。通过GCNeXt模块和SGAlign层，实现在ActivityNet-1.3和THUMOS14数据集上的最佳效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文下载链接：https://arxiv.org/pdf/1911.11462.pdf

1 摘要
对于动作检测而言，视频的文本信息是十分重要的线索之一，但是当前的工作主要集中于时序文本信息（temporal context），而忽视了另一个同样重要的语义文本信息（semantic context）。本文提出通过GCN模型自适应地融合多级语义文本信息，将时序动作检测问题转化为子图定位问题。具体就是将视频snippets作为图节点，将snippet-snippet correlations 作为边, 将于文本相关的动作实例作为目标子图。设计了GCNeXt模块，学习聚合了文本信息的特征，并动态更新图的边。设计了SGAlign layer将子图嵌入欧式空间来定位每一个子图。实验取得了state-of-the-art 的效果。On ActityNet-1.3, average mAP of 34.09%; on THUMOS14, 40.16% in mAP@0.5, 成为最好的one-stage方法。

2 背景
文章的本质和核心就是融入了更多的文本信息。之前也有不少同样的尝试，如a.以特定比例延伸时序边界（如之前组会讲过的前后各延伸proposal长度的1/2、1/5）;b.使用空洞卷积（之前组会也讲过）；c.使用高斯曲线（之前郑师姐组会讲过一次高斯核，19年cvpr）。但这些方法都只利用了时序信息，仅仅是时序上前后的相邻节点信息。而显示世界中视频在时序内容、动作内容、甚至是剪辑风格千差万别，单一的时序信息并不能很好地表示视频内容，甚至可能降低检测的准确度。

3 整体方案
在这里插入图片描述
Node：视频小段，
Edges：视频小片段之间的相互关系
Sub-graph：具体的动作实例
Node有4种类型：action, start, end, and background，正如上图中颜色所示。

Edges有2种类型：
1)temporal edges, 是跟据视频片段的时序顺序预先定义的；
2)semantic edges, 是从节点特征中学习到的。
在这里插入图片描述

Overview of G-TAD architecture

G-TAD的输入是每个snippet抽帧之后得到的snippet features序列：
在这里插入图片描述
每个视频片段的注释：

首先，使用3个GCNeXt模块进行特征提取，这个过程逐步聚合时序信息（temporal context）和多级语义信息（multi-level semantic context）。 Semantic context, 编码成semantic edges，是从每一层GCNeXt特征动态学习得到的。

然后，将3个GCNeXt模块提取的特征送入SGAlign layer，在SGAlign layer中，一系列anchors定义的sub-graphs 被转变成固定尺寸的欧式空间表示。

最后，定位模块获得sub-graphs的得分并排序，然后给出最后的结果。

3.1 GCNeXt block
在这里插入图片描述
GCNeXt block是模仿目标检测里的ResNeXt（Aggregated residual transformations for deep neural networks.2017CVPR）设计的，目的是为了获得context-aware features。每个GCNeXt包含2个图卷积流，一个是通过1D卷积在固定的时序相邻节点上操作获取temporal context。另一个是自适应地将semantic context聚合到snippet features。
在这里插入图片描述

图中方框数字表示的是(输入通道数，输出通道数)，一共设计了32条路径来增加转变的多样性。
网络最后的输出是将上下两流的32条路径相加再加上一开始的输入，这个思想和ResNeXt很相似。

3.2 Sub-Graph Alignment and Localization
Sub-Graph of Interest Alignment (SGAlign)
在这里插入图片描述

SGAlign layer

大部分之前的动作检测器都是对每一个 action anchor进行缩放提取固定尺寸的proposal特征向量，通常对anchor进行线性插值。而本论文中是通过从聚合了文本特征的配准层自适应地提取子图特征，并不依赖于人为的偏好。

L个特征向量在这里插入图片描述，anchor a，我们需要分别从时序和语义图中采样t1、t2个向量，进行配准。配准按以下四步进行：
1）每个snippet通过temporal graph映射回之前的时序顺序；
2）采用如下算法分别从 temporal graph和semantic graph获取t1、t2个向量；
在这里插入图片描述
3）将每一个节点的特征用它的动态相邻节点的平均特征来代替，然后重复1）、2）步操作来进一步提取semantic context；
4）将t1和t2向量级联作为配准层的输出；