G-TAD: Sub-Graph Localization for Temporal Action Detection
G-TAD:用于时间动作检测的子图本地化
CVPR2020
时间动作检测是视频理解中一项基本但具有挑战性的任务。视频上下文是有效检测动作的关键提示,但是当前的工作主要集中在时间上下文上,而忽略了语义上下文以及其他重要的上下文属性。
文章提出了一种图卷积网络(GCN)模型,以将多级语义上下文自适应地合并到视频特征中,并将时间动作检测作为子图定位问题。具体来说,将视频片段公式化为图形节点,将片段-片段相关性公式化为边缘,将与上下文关联的动作公式化为目标子图。以图卷积为基本操作,文章设计了一个称为GCNeXt的GCN块,该块通过聚合每个节点的上下文来学习每个节点的特征并动态更新图形中的边。为了定位每个子图,文章还设计了一个SGAlign层,将每个子图嵌入到欧几里得空间中。大量的实验表明,G-TAD能够在无需额外监督的情况下找到有效的视频上下文,并在两个检测基准上达到了最新的性能。
将每个视频序列表示为一个图形,将每个片段表示为一个节点,将每个片段-片段相关性作为一个边缘,并将与上下文相关联的目标动作作为子图。片段的上下文被认为是通过视频图中的边缘与其连接的所有片段。我们定义两种类型的边缘-时间边缘和语义边缘,分别对应于时间上下文和语义上下文。在每对相邻的片段之间存在时间边缘,而语义边缘则是从每一层的视频功能中动态学习的。因此,每个代码段的多级上下文会逐渐汇总到整个GCN中的代码段特征中。
G-TAD类似于R-CNN。受ResNeXt启发,基于GCN的特征提取模块GCNext生成了上下文丰富的特征,对应于更快的R-CNN中骨干网的CNN块。SGAlign子图兴趣对齐层,为每个子图生成固定大小的表示并将所有子图嵌入到同一欧式空间中。对每个子图的特征应用分类器来获得检测。
- 提出一种新颖的基于GCN的视频模型,以充分利用视频上下文进行有效的时间动作检测,自适应的将多级语义上下融入每个片段。
- G-TAD,新的子图检测框架,可以对视频图中动作进行本地化。包括两个主要模块:GCNeXt和SGAlign。GCNeXt利用时间和语义上下文对视频图执行图卷积。SGAlign在适合检测的嵌入式空间中重新排列子图特征。
related work
Xingyu Liu, Joon-Y oung Lee, and Hailin Jin. Learning video representations from correspondence proposals. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.将视频视为时空空间中的3D点云。
Xiaolong Wang and Abhinav Gupta. Videos as space-time region graphs. In Proceedings of the European Conference on Computer Vision (ECCV), 2018.将视频表示为时空区域图,其中图节点由对象区域建议定义。在动作检测中,Zeng等人。
Runhao Zeng, Wenbing Huang, Mingkui Tan, Y u Rong, Peilin Zhao, Junzhou Huang, and Chuang Gan. Graph convolutional networks for temporal action localization. arXiv preprint arXiv:1909.03252, 2019.将时间行动建议视为图中的节点,并根据已建立的建议-建议依赖性来细化其边界和分类分数。
与以前的作品不同,G-TAD根据时间片段的顺序和语义相似性,将视频片段作为节点之间的节点图和形式边缘。
method
problem formulation
pipeline的输入是 l v l_v lv帧视频序列。从原始视频帧中提取特征序列来构建G-TAD,对每个 σ \sigma σ连续帧求平均,并将每组 σ \sigma σ帧成为片段。输入视觉特征序列由 X ( 0 ) ∈ R C × l X^{(0)}\in{\Bbb R}^{C×l} X(0)∈RC×l表示,其中C是每个片段的特征维度,L是片段数。每个视频片段有N个注释 Ψ = { ψ n = ( t s , n , t e , n , c n ) } n = 1 N \Psi=\{\psi_n=(t_{s,n},t_{e,n},c_n)\}_{n=1}^N Ψ={ ψn=(ts,n,te,n,cn)}n=1N, ψ n \psi_n ψn表示一个动作实例, t s , n , t e , n , c n t_{s,n},t_{e,n},c_n ts,n,te,n,cn分别表示开始时间、结束时间、动作类别。
时间动作检测是从V预测M个可能的动作 Φ = { ϕ m = ( t ^ s , m , t ^ e , m , c ^ m , p m ) ) } m = 1 M \Phi=\{\phi_m=(\hat t_{s,m},\hat t_{e,m},\hat c_m,p_m))\}_{m=1}^M Φ={ ϕ