Enriching Local and Global Contexts for Temporal Action Localization
链接:https://arxiv.org/pdf/2107.12960.pdf
多级特征表示:
所有特征都是维度为 D D D 的一维向量。
snippet-level: x ∈ R D x\in{}\mathbb{R}^{D} x∈RD ,通过 I3D 提取特征,每一帧都表示为一个 snippet-level 的特征。
proposal-level: y ∈ R D y\in{}\mathbb{R}^{D} y∈RD ,通过 BSN 获得 proposal,对每个 proposal 的 [start, end] 中全部 snippets 进行 max-pooling。
video-level: z ∈ R D z\in{}\mathbb{R}^{D} z∈RD ,将全部的 snippets 进行 max-pooling。
网络结构
L-Net:
通过余弦相似度计算一个 proposal feature 和 proposal 内部全部snippet features 的距离,作为 snippet 的权重 a a a 。
W 1 L , W 2 L ∈ R D 2 × D W_{1}^{L}, W_{2}^{L} \in \mathbb{R}^{\frac{D}{2}\times D} W1L,W2L∈R2D×D,原始的 proposal feature 与加权后的 snippet features 融合后作为新的 proposal feature,经过全连接层后,特征维度减半。
G-Net:
与 L-Net 类似的方式调整 video feature ,每一个 proposal 都会获得一个独有的 video feature。 a , b a, b a,b 分别表示 proposal 中的 snippets 和 proposal 的权重。
proposal 与 video feature 连接后作为新的 proposal feature,维度为 D D D。
P-Net:
用于接收特征,进行分类和对 proposal 分数回归。可使用不同的网络替换,作者分别使用 non-local 和 P-GCN 实验。
Extended Proposals
L-Net 之间和 G-Net 之间共享权重。降低计算量,且能反应 Original Proposal 与 Extended Region 之间的关联。
**
P-Net 使用 P-GCN 时,文章可以理解为 baseline 为 P-GCN,对绿色框内的 Proposal Features 和 Extended Proposal Features 进行了额外的特征处理( 即 L-Net,G-Net 的特征加权融合 )。
作者使用 BSN 获取到 proposal 后(与 P-GCN 等 two-stage 方法相同),对 proposal 的片段特征进行处理,再分类和打分。这篇文章关注的重点是特征表示,充分利用不同层级的特征提升下游任务精度。
Local context:细粒度的特征,提升定位精度。
Global context:考虑了背景信息,适合分类,但需要消除噪声。