Motivation
现存的视频检索的工作都是concept based的方法,从视频和文本中寻找各自对应的概念,在现实场景中比较难以使用,作者提出concept free方法,加入多种特征的双塔模型,简单高效。
Contribution
提出一个多级的编码方式,映射到同一空间
渐进式地学习局部、全局和时序的特征
不错的效果
Method
如图,视频和文本的模型差不多,对于视频先用预训练好的模型提取特征,通过平均池化得到全局特征,通过双向GRU得到时序特征,通过双向GRU和一维卷积得到局部特征,之后拼接到一起作为视频的特征,对于文本也是一样的。这样得到的视频和文本的特征映射到同一空间后使用VSE++进行common space learning。
损失函数使用improved marginal ranking loss,同时使用了难样本挖掘的方法。
Experiments
作者做的实验非常多,在5个数据集上做了实验。其中包括了一个TRECVID的比赛Evaluating ad-hoc and instance video search, events detection, video captioning and hyperlinking
作者还计算了efficiency
Codes
https://github.com/danieljf24/dual_encoding
关于VSE++的代码:https://github.com/fartashf/vsepp