2019_Dual Encoding for Zero-Example Video Retrieval_CVPR

Motivation

现存的视频检索的工作都是concept based的方法,从视频和文本中寻找各自对应的概念,在现实场景中比较难以使用,作者提出concept free方法,加入多种特征的双塔模型,简单高效。

 

Contribution

提出一个多级的编码方式,映射到同一空间

渐进式地学习局部、全局和时序的特征

不错的效果

 

Method

 

如图,视频和文本的模型差不多,对于视频先用预训练好的模型提取特征,通过平均池化得到全局特征,通过双向GRU得到时序特征,通过双向GRU和一维卷积得到局部特征,之后拼接到一起作为视频的特征,对于文本也是一样的。这样得到的视频和文本的特征映射到同一空间后使用VSE++进行common space learning。

 

损失函数使用improved marginal ranking loss,同时使用了难样本挖掘的方法。

 

Experiments

作者做的实验非常多,在5个数据集上做了实验。其中包括了一个TRECVID的比赛Evaluating ad-hoc and instance video search, events detection, video captioning and hyperlinking

 

作者还计算了efficiency

 

Codes

https://github.com/danieljf24/dual_encoding

关于VSE++的代码:https://github.com/fartashf/vsepp

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值