介绍一下我之前在校,独立完成的一项工作,已被ACM ICMR 2019 接收为oral paper
论文:《Cross-Modal Video Moment Retrieval with Spatial and Language-Temporal Attention》
代码:https://github.com/BonnieHuangxin/SLTA
一、论文任务
Examples:
Temporal Moment Retrieval:即给定一个查询句子(包含对视频中动作的描述),在视频中找到对应动作(事件)的起止时间。
key challenges(论文动机):
1)Recognization of relevant objects and interactions.
在未修剪的视频常常包括大量的人物活动、物体以及物体之前的交互,而仅有其中的少部分与query language的描述的内容有关。
以上图为例,通过language query 检索到的视频片段中涉及到了物体"girl"、"cup"以及时序动作 "pour"。因此,如何将包含与query内容相关的 物体及物体的交互 与 其它视频片段 区分开是一个具有挑战性的任务。
2)Comprehension of crucial query information.
在query language中的一些关键词传达了检索相关片段的关键线索。
以句子“A person puts dishes away in a cabinet”为例,“dishes” , “cabinet”以及时序动作词“put"对片段检索的贡献度最大。
二、论文原理
我们提出了"Spatial and Language-Temporal Attention model(SLTA)即 空间与语言-时序注意力。它包括两个分支注意力网络,分别为空间注意力、语言-时序注意力。
具体而言:
1)首先,我们提取视频帧object-level的局部特征,并通过 空间注意力 来关注与query最相关的局部特征(例如,局部特征“girl”,“cup”),然后对连续帧上的局部特征序列进行encoding,以捕获这些object之间的交互信息(例如,涉及这两个object的交互动作“pour”)
2) 同时,利用 语言-时序注意力网络 基于视频片段上下文信息来强调query中的关键词。
因此,我们提出的 两个注意力子网络 可以识别视频中最相关的物体和物体间的交互,同时关注query中的关键字。
三、模型介绍
a) 模型结构