Enriching Local and Global Contexts for Temporal Action Localization

最新推荐文章于 2023-10-08 15:00:19 发布

||Bian

最新推荐文章于 2023-10-08 15:00:19 发布

阅读量558

点赞数

分类专栏： DL 文章标签：深度学习

本文链接：https://blog.csdn.net/Biany0h0/article/details/119534471

版权

2 篇文章 0 订阅

订阅专栏

在这里插入图片描述

所有特征都是维度为 $D$ 的一维向量。

snippet-level： $x\in{}\mathbb{R}^{D}$ ，通过 I3D 提取特征，每一帧都表示为一个 snippet-level 的特征。

proposal-level： $y\in{}\mathbb{R}^{D}$ ，通过 BSN 获得 proposal，对每个 proposal 的 [start, end] 中全部 snippets 进行 max-pooling。

video-level： $z\in{}\mathbb{R}^{D}$ ，将全部的 snippets 进行 max-pooling。

通过余弦相似度计算一个 proposal feature 和 proposal 内部全部snippet features 的距离，作为 snippet 的权重 $a$ 。

在这里插入图片描述

$W_{1}^{L}, W_{2}^{L} \in \mathbb{R}^{\frac{D}{2}\times D}$ ，原始的 proposal feature 与加权后的 snippet features 融合后作为新的 proposal feature，经过全连接层后，特征维度减半。

在这里插入图片描述

与 L-Net 类似的方式调整 video feature ，每一个 proposal 都会获得一个独有的 video feature。 $a, b$ 分别表示 proposal 中的 snippets 和 proposal 的权重。

在这里插入图片描述

proposal 与 video feature 连接后作为新的 proposal feature，维度为 $D$ 。

用于接收特征，进行分类和对 proposal 分数回归。可使用不同的网络替换，作者分别使用 non-local 和 P-GCN 实验。

在这里插入图片描述
L-Net 之间和 G-Net 之间共享权重。降低计算量，且能反应 Original Proposal 与 Extended Region 之间的关联。

P-Net 使用 P-GCN 时，文章可以理解为 baseline 为 P-GCN，对绿色框内的 Proposal Features 和 Extended Proposal Features 进行了额外的特征处理（即 L-Net，G-Net 的特征加权融合）。

在这里插入图片描述

作者使用 BSN 获取到 proposal 后（与 P-GCN 等 two-stage 方法相同），对 proposal 的片段特征进行处理，再分类和打分。这篇文章关注的重点是特征表示，充分利用不同层级的特征提升下游任务精度。

Local context：细粒度的特征，提升定位精度。

Global context：考虑了背景信息，适合分类，但需要消除噪声。

在这里插入图片描述

关注

专栏目录