Multi-Scale 2D Temporal Adjacency Networks for Moment Localization with Natural Language
论文信息
来源:TPAMI 2021
地址:Multi-Scale 2D Temporal Adjacency Networks for Moment Localization With Natural Language | IEEE Journals & Magazine | IEEE Xplore
作者:Songyang Zhang, Houwen Peng, Jianlong Fu, Yijuan Lu, and Jiebo Luo
论文前身
1. 2D时序图
这篇论文由作者在AAAI2020发表的一篇文章(Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language | Proceedings of the AAAI Conference on Artificial Intelligence)拓展而来,在该文章中,作者提出了一种二维表达时间序列影像的方式:通过一个二维图,在视频片段间建模时序关系。二维图的其中一个维度指示片段的开始点,另一个指示结束点。
好处: 与之前的方法相比,2D时序图使模型能够感知更多的视频上下文信息,并学习具有判别性的特征来区分具有复杂语义的时刻。
2. 模型
这里作者提出的模型较为简单,通过两个不同的模块分别提取文本与视频片段的特征,然后相乘,在获得相关性分数。
现有改变
1. 2D多尺度时序图
**A图:**稠密的单尺度二维时序图:黑色的纵轴和横轴表示起始和持续时间索引,灰色轴表示相应的起始时间戳和持续时间。二维图中用红色突出显示的数值表示候选时刻与目标时刻的匹配分数。这里,τ是一个预定义的短持续期。图中的白色方框表示无效时刻。
**B图:**稀疏的多尺度二维时序图:稀疏多尺度二维时态图是由一系列不同时间单位(图中的τ , 2 τ和4 τ)下的二维图组成。图上的灰色方框表示未被选中的有效时刻。在这种配置下,可以通过在较小的图上建模来减少计算成本。
2. 多尺度模型
如何构建时序图?
给定一个输入视频,首先将其分割成小的非重叠视频片段,其中每个片段由T个连续的帧组成。对于每个视频片段,使用预训练的CNN模型提取其特征。为了在通道维度上生成更多的压缩视频片段表示,作者采用全连接层重整了提取的片段特征最终的输出就是:
[
f
i
v
]
i
=
0
N
−
1
[f_{i}^{v} ]_{i=0}^{N-1}
[fiv]i=0N−1;其中V为全连接的输出通道数,N为视频片段总数。
然后通过堆叠卷积生成特征矩阵,在堆叠卷积中,每一层的输出都是矩阵特征,这些矩阵的长度相等但开始的时间不同。卷积共有N层,每层
k
e
r
n
e
l
=
2
kernel=2
kernel=2并且
s
t
r
i
d
e
=
1
stride=1
stride=1(第一层比较特殊,
k
e
r
n
e
l
=
1
&
s
t
r
i
d
e
=
1
{kernel=1}\&{stride=1}
kernel=1&stride=1)。但是这样做对内存的要求比较高,计算量比较大,作者就采用了一种策略分别针对不同长度的片段进行间隔不同的采样,修改第
(
i
+
1
)
A
2
\frac{(i+1)A}{2}
2(i+1)A层的卷积
k
e
r
n
e
l
=
3
&
s
t
r
i
d
e
=
2
{kernel=3}\&{stride=2}
kernel=3&stride=2进行下采样。简单来说,就是针对短片段,进行密集采样,长片段进行稀疏采样。
多尺度二维时序邻接网络
该部分个人不是很关注,就套用知乎上的解释了:
有了视频的稀疏二维特征图(图 2 中蓝色立方体)和文本特征(图 2 中黄色立方体),该研究将其进行融合,获得融合的稀疏二维特征图(图 2 中绿色立方体)。该研究再根据不同的时间尺度,将单一尺度的稀疏二维特征图,转化成一组稀疏的多尺度二维特征图。对于每个尺度的二维特征图,该研究使用一系列的 gated convolution 对每个片段和其邻近片段的关系进行建模,并通过一个全联接层获得各尺度中各片段最终的得分。
训练和测试
在训练过程中,每一个尺度都会有一个对应的损失函数,该研究将二元交互熵 (Binary Cross Entropy) 作为模型的损失函数,同时使用一个经过线性变换的 IoU (intersection over union)的值作为损失函数中的标签。该研究将所有的损失函数加在一起作为整个模型的损失函数。
在测试时,该研究根据特征的位置,得到每个片段的得分,并根据 NMS 对其进行筛选。如果一个片段存在于多个得分图中,那么选取最高的得分作为其得分。
实验结果