G-TAD: Sub-Graph Localization for Temporal Action Detection

论文下载链接:https://arxiv.org/pdf/1911.11462.pdf

1 摘要
对于动作检测而言,视频的文本信息是十分重要的线索之一,但是当前的工作主要集中于时序文本信息(temporal context),而忽视了另一个同样重要的语义文本信息(semantic context)。本文提出通过GCN模型自适应地融合多级语义文本信息,将时序动作检测问题转化为子图定位问题。具体就是将视频snippets作为图节点,将snippet-snippet correlations 作为边, 将于文本相关的动作实例作为目标子图。设计了GCNeXt模块,学习聚合了文本信息的特征,并动态更新图的边。设计了SGAlign layer将子图嵌入欧式空间来定位每一个子图。实验取得了state-of-the-art 的效果。On ActityNet-1.3, average mAP of 34.09%; on THUMOS14, 40.16% in mAP@0.5, 成为最好的one-stage方法。

2 背景
文章的本质和核心就是融入了更多的文本信息。之前也有不少同样的尝试,如a.以特定比例延伸时序边界(如之前组会讲过的前后各延伸proposal长度的1/2、1/5);b.使用空洞卷积(之前组会也讲过);c.使用高斯曲线(之前郑师姐组会讲过一次高斯核,19年cvpr) 。但这些方法都只利用了时序信息,仅仅是时序上前后的相邻节点信息。而显示世界中视频在时序内容、动作内容、甚至是剪辑风格千差万别,单一的时序信息并不能很好地表示视频内容,甚至可能降低检测的准确度。

3 整体方案
在这里插入图片描述
Node:视频小段,
Edges:视频小片段之间的相互关系
Sub-graph:具体的动作实例
Node有4种类型:action, start, end, and background,正如上图中颜色所示。

Edges有2种类型:
1)temporal edges, 是跟据视频片段的时序顺序预先定义的;
2)semantic edges, 是从节点特征中学习到的。
在这里插入图片描述

Overview of G-TAD architecture

G-TAD的输入是每个snippet抽帧之后得到的snippet features序列:
在这里插入图片描述
每个视频片段的注释:
在这里插入图片描述
首先,使用3个GCNeXt模块进行特征提取,这个过程逐步聚合时序信息(temporal context)和多级语义信息(multi-level semantic context)。 Semantic context, 编码成semantic edges,是从每一层GCNeXt特征动态学习得到的。

然后,将3个GCNeXt模块提取的特征送入SGAlign layer,在SGAlign layer中,一系列anchors定义的sub-graphs 被转变成固定尺寸的欧式空间表示。

最后,定位模块获得sub-graphs的得分并排序,然后给出最后的结果。

3.1 GCNeXt block
在这里插入图片描述
GCNeXt block是模仿目标检测里的ResNeXt(Aggregated residual transformations for deep neural networks.2017CVPR) 设计的,目的是为了获得context-aware features。每个GCNeXt包含2个图卷积流,一个是通过1D卷积在固定的时序相邻节点上操作获取temporal context。另一个是自适应地将semantic context聚合到snippet features。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
图中方框数字表示的是(输入通道数,输出通道数),一共设计了32条路径来增加转变的多样性。
网络最后的输出是将上下两流的32条路径相加再加上一开始的输入,这个思想和ResNeXt很相似。
在这里插入图片描述
3.2 Sub-Graph Alignment and Localization
Sub-Graph of Interest Alignment (SGAlign)
在这里插入图片描述
在这里插入图片描述

SGAlign layer

大部分之前的动作检测器都是对每一个 action anchor进行缩放提取固定尺寸的proposal特征向量,通常对anchor进行线性插值。而本论文中是通过从聚合了文本特征的配准层自适应地提取子图特征,并不依赖于人为的偏好。

L个特征向量在这里插入图片描述,anchor a,我们需要分别从时序和语义图中采样t1、t2个向量,进行配准。配准按以下四步进行:
1)每个snippet通过temporal graph映射回之前的时序顺序;
2)采用如下算法分别从 temporal graph和semantic graph获取t1、t2个向量;
在这里插入图片描述
3)将每一个节点的特征用它的动态相邻节点的平均特征来代替,然后重复1)、2)步操作来进一步提取semantic context;
4)将t1和t2向量级联作为配准层的输出;

4 Training G-TAD

4.1 Sub-Graph Localization Loss:
在这里插入图片描述
4.2 Node Classification Regularizer:
在这里插入图片描述
4.3 最后的整体损失函数为:
在这里插入图片描述
5 实验结果
在这里插入图片描述
在这里插入图片描述

推荐阅读:
ActivityNet数据集简介及下载分享(百度网盘)
BSN: Boundary-Sensitive Network for Temporal Action Proposal Generation

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值