Enriching Local and Global Contexts for Temporal Action Localization

Enriching Local and Global Contexts for Temporal Action Localization

链接:https://arxiv.org/pdf/2107.12960.pdf

在这里插入图片描述

多级特征表示:

所有特征都是维度为 D D D 的一维向量。

snippet-level: x ∈ R D x\in{}\mathbb{R}^{D} xRD ,通过 I3D 提取特征,每一帧都表示为一个 snippet-level 的特征。

proposal-level: y ∈ R D y\in{}\mathbb{R}^{D} yRD ,通过 BSN 获得 proposal,对每个 proposal 的 [start, end] 中全部 snippets 进行 max-pooling。

video-level: z ∈ R D z\in{}\mathbb{R}^{D} zRD ,将全部的 snippets 进行 max-pooling。

网络结构

L-Net:

通过余弦相似度计算一个 proposal feature 和 proposal 内部全部snippet features 的距离,作为 snippet 的权重 a a a

在这里插入图片描述

在这里插入图片描述

W 1 L , W 2 L ∈ R D 2 × D W_{1}^{L}, W_{2}^{L} \in \mathbb{R}^{\frac{D}{2}\times D} W1L,W2LR2D×D,原始的 proposal feature 与加权后的 snippet features 融合后作为新的 proposal feature,经过全连接层后,特征维度减半。

G-Net:

在这里插入图片描述

与 L-Net 类似的方式调整 video feature ,每一个 proposal 都会获得一个独有的 video feature。 a , b a, b a,b 分别表示 proposal 中的 snippets 和 proposal 的权重。

在这里插入图片描述

proposal 与 video feature 连接后作为新的 proposal feature,维度为 D D D

P-Net:

用于接收特征,进行分类和对 proposal 分数回归。可使用不同的网络替换,作者分别使用 non-local 和 P-GCN 实验。

Extended Proposals

在这里插入图片描述
L-Net 之间和 G-Net 之间共享权重。降低计算量,且能反应 Original Proposal 与 Extended Region 之间的关联。

**

P-Net 使用 P-GCN 时,文章可以理解为 baseline 为 P-GCN,对绿色框内的 Proposal Features 和 Extended Proposal Features 进行了额外的特征处理( 即 L-Net,G-Net 的特征加权融合 )。

在这里插入图片描述

作者使用 BSN 获取到 proposal 后(与 P-GCN 等 two-stage 方法相同),对 proposal 的片段特征进行处理,再分类和打分。这篇文章关注的重点是特征表示,充分利用不同层级的特征提升下游任务精度。

Local context:细粒度的特征,提升定位精度。

Global context:考虑了背景信息,适合分类,但需要消除噪声。

实验结果

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值