【论文阅读】Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language

表示自己研究的时候,就感觉这是一篇很普通的文章,后来才发现,大家争相把这篇文章当作baseline…

摘要及引入

通过一个二维图,在视频片段间建模时序关系。二维图的其中一个维度指示片段的开始点,另一个指示结束点。
二维图的作用是,可以在覆盖不同长度的视频片段的同时 ,表示他们的邻接关系。(对这个主要论点的理解,首先视频片段的长度是通过二维图上点的位置来体现的,那为什么能表示不同片段之间的邻接关系呢?比如相同横坐标的点,代表的是同一起点的片段,相同纵坐标的点则能表示同一终点的片段,这能指示他们的重叠、相邻关系)
二维图坐标映射:( i i i, j j j)-th -> i τ i\tau iτ to ( j + 1 ) τ (j+1)\tau (j+1)τ τ = 93.5 8 s = 11.6875 s \tau=\frac{93.5}{8}s=11.6875s τ=893.5s=11.6875s

自然的小问题:二维图上的点扩展到向量呢?(直觉来看,由点变成向量,反而没那么灵活了)

穷举地更详尽了,为什么反而计算成本降低了呢?因为每个片段都被降维了。这样能把关键信息展示出来吗?

自然的小问题:是不是说最后的检索误差就是 τ \tau τ呢?那么误差还挺大的。且 τ \tau τ是怎么得到的呢?(跟单个视频有关?还是跟整个数据集有关?)

模型部分

模型理解:

文本特征表示,比较常规,先经过word2vec将单词转化为向量,然后放入一个三层双向LSTM网络,将最后一个隐状态作为句子的特征表示

视频特征表示,输入视频的帧序列,按照固定长度(具体是 T T T帧/切)切分帧序列,获得clip序列{ v i v_i vi}, 然后对clip序列进行固定间隔的采样(由于每个视频的长度是不一样的,因此每个视频的clip的个数不同,不方便深度模型统一处理,因此这里使用的固定间隔,对于每个视频是不同的),一共得到 N N N个clip,每个clip为 T T T帧。此时的维度是 B ∗ N ∗ T B*N*T BNT(B for batch size),然后放入预训练的VGG网络,再放入以 d V d^V dV为输出的全连接层。此时的视频特征维度是 B ∗ N ∗ d V B*N*d^V BNdV,每个clip特征表示为 f V f^V fV

写到这里,直觉感觉误差更大了,但误差具体是多少,有点不太会算…

现在对于一个视频而言,共有 N N N个clip,然后进行候选片段moment的构建,这就是作者的核心idea,用二维时序图来集成(其实可以看作是一种维度的增加,一种优雅的sliding window)。moment就是多个clip的集成,集成方式可以是max-pool、也可以是stacked conv。接下来的问题就是以怎样的密度选择集成好的候选moment,就用到了二维时序特征图(因为二维时序图的每个点都指示了一个长度有持续的候选片段,所以二维时序图的构建相当于是对clip进行组合的过程,则 d V d_V dV不能直接用,应该从clip维度映射到moment维度再用,代码里作者提供了avg-pool+max-pool两种映射方式,话说conv这种方式能看作是一种矩阵变换吗?)。二维时序特征图共包含三个维度,分别是start index、end index和特征维度 d V d^V dV;二维时序图只有上三角部分有意义,因为要保证结束点在起始点之后;二维时序图可以直接的展示出枚举所有clip的moment,但这会导致计算成本大幅提升,因此作者构建稀疏取样策略,对于clip数小于16的moment,枚举所有moment;对于大于16 clip的moment,使用公式:(这个式子有点复杂,有没有表达更易懂的方式,比如在什么区间内,a不变的情况下,b每隔多少取一个)

然后利用二维时序图构建时序邻接网络,首先将二维特征图与查询语句进行跨模态的特征融合(分别放入两个全连接层+哈达玛积+ L 2 L_2 L2范数),再放入 L L L K K K大小卷积核的卷积层,就能得到不同候选片段间交互过的二维时序特征图,然后进行分数的预测(全连接层+sigmoid),获得 C C C个候选片段的预测分数

利用预测分数和归一化的 I o U IoU IoU构造交叉熵损失函数

维度推演:

实验

在这里插入图片描述
Charades-STA上面的实验,在VGG-based+C3D-based的视觉特征提取方法中获得最高,但不如后来出现的I3D-based的视觉特征提取方法和基于强化学习的方法中的某些高。

与三类方法比较,sliding-window碾压,强化学习的碾压,但GCN的有一定差距(看看GCN的好处在哪里?)

感悟

总的来说,2D时序图本身并不能揭示不同moment之间的邻接关系,是卷积帮助完成的,但2D时序图为视频提供了一种能够卷积的形式,是一种处理视频(或者与视频一样具有时序性质)的策略;同时2D时序图也不是一种取样策略(均匀取样是作者的取样策略),其本身并不能带来计算成本的降低。
视频本身是一个四维实体,比普通的三维图多了一个时序维度的特征。普通的模型是将视频整体转化为一个1024维,但是作者显示化了其中两个维度,起始点维度和结束点维度

相似idea

关于这篇文章提出的二维时序特征图,大家的评价差别比较大。但可以肯定的是,这篇文章提出的解决方案不单单是只适用于vmr任务的,还可以扩展到很多方向。大家提到的比较相似的工作有:ActivityNet Challenge 2019 冠军模型BMN算法、时序卷积、GCN方法、ER3: A Unified Framework for Event Retrieval, Recognition and Recounting中对单模态的处理;下面逐一来分析一下:
BMN

2D-TANBMN
任务视频活动检索视频动作检索
动机无法构建不同候选片段间的时序依赖关系不能有效地为proposal生成足够可靠的分数
核心idea2D temporal mapBoundary-Matching confidence map
核心论点二维时序图不仅能表示不同长度的视频moment还能表示他们的邻接关系边界匹配置信图可以为密集分布的proposal评估置信分数
2D-TANBMN
TaskTemporal Activity RetrievalTemporal Action Retrieval
MotivationExisting methods neglect the temporal dependencies.cannot efficiently generate reliable confidence scores for retrieving proposals.
Main Idea2D temporal mapBoundary-Matching confidence map
Main Pointto represent adjacent relations between momentsto evaluate confidence scores of densely distributed proposals

其实BM confidence map就是2D temporal map最后经过多轮卷积转化为的score map(BMN这篇文章3.3的Boundary-Matching Layer没看懂,后面的之后再看

时序卷积

假如导师问我为什么拿20年的论文来讲

  1. 我认为这篇文章,虽然在准确率不能算是完全霸榜了,但他的idea仍然是有价值的。举个例子,无论是时序动作检测、还是时序活动检测、或者是视频异常检测、视频描述生成这些任务,都是很相似的,都对这个idea有很好的适应性。所以idea的新颖程度,是不能通过时间这个维度来判断的,我相信这个idea可以给实验室的很多小伙伴一些启发
  2. 从我的角度来说,我认为这篇文章对我的价值也非常大。因为从我的观感来说,反而是后出现的2D-TAN这篇文章给我的惊喜更大。我认为这是由于对论点的选择与阐述带来的,也就是说,大致相同的两个论点,2D-TAN挑选的论点更加直击痛点,BMN挑选的角度可能就逊色一些,所以我认为2D-TAN的写作逻辑对我启发也很大
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值