Temporal Action Detection：G-TAD: Sub-Graph Localization for Temporal Action Detection（CVPR2020）

最新推荐文章于 2023-03-31 15:26:48 发布

LaoPan0111

最新推荐文章于 2023-03-31 15:26:48 发布

阅读量880

点赞数

分类专栏：视频动作检测时序视频检测深度学习文章标签： python 人工智能计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/LaoPan0111/article/details/106518480

版权

Temporal Action Detection：G-TAD: Sub-Graph Localization for Temporal Action Detection（CVPR2020）

论文下载链接：https://arxiv.org/pdf/1911.11462.pdf
THUMOS14数据集下载： GooogleDrive,OneDrive

1 摘要
对于动作检测而言，视频的文本信息是十分重要的线索之一，但是当前的工作主要集中于时序文本信息（temporal context），而忽视了另一个同样重要的语义文本信息（semantic context）。本文提出通过GCN模型自适应地融合多级语义文本信息，将时序动作检测问题转化为子图定位问题。具体就是将视频snippets作为图节点，将snippet-snippet correlations 作为边, 将于文本相关的动作实例作为目标子图。设计了GCNeXt模块，学习聚合了文本信息的特征，并动态更新图的边。设计了SGAlign layer将子图嵌入欧式空间来定位每一个子图。实验取得了state-of-the-art 的效果。On ActityNet-1.3, average mAP of 34.09%; on THUMOS14, 40.16% in mAP@0.5, 成为最好的one-stage方法。

2 背景
文章的本质和核心就是融入了更多的文本信息。之前也有不少同样的尝试，如a.以特定比例延伸时序边界（如之前组会讲过的前后各延伸proposal长度的1/2、1/5）;b.使用空洞卷积（之前组会也讲过）；c.使用高斯曲线（之前郑师姐组会讲过一次高斯核，19年cvpr）。但这些方法都只利用了时序信息，仅仅是时序上前后的相邻节点信息。而显示世界中视频在时序内容、动作内容、甚至是剪辑风格千差万别，单一的时序信息并不能很好地表示视频内容，甚至可能降低检测的准确度。

3 整体方案
在这里插入图片描述
Node：视频小段，
Edges：视频小片段之间的相互关系
Sub-graph：具体的动作实例
Node有4种类型：action, start, end, and background，正如上图中颜色所示。

Edges有2种类型：
1)temporal edges, 是跟据视频片段的时序顺序预先定义的；
2)semantic edges, 是从节点特征中学习到的。

最低0.47元/天解锁文章

LaoPan0111

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Temporal Action Detection：G-TAD: Sub-Graph Localization for Temporal Action Detection（CVPR2020）

G-TAD: Sub-Graph Localization for Temporal Action Detection论文下载链接：https://arxiv.org/pdf/1911.11462.pdfTHUMOS14数据集下载： GooogleDrive,OneDrive1 摘要对于动作检测而言，视频的文本信息是十分重要的线索之一，但是当前的工作主要集中于时序文本信息（temporal context），而忽视了另一个同样重要的语义文本信息（semantic context）。本文提出通过GCN
复制链接

扫一扫