论文标题:
Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning
论文作者:
Kaibin Tian, Yanhua Cheng, Yi Liu, Xinglin Hou, Quan Chen, Han Li
论文链接:
https://arxiv.org/abs/2401.00701
代码链接:
https://github.com/adxcreative/EERCF
摘要
近年来,从网络收集大规模图像文本进行预训练的文本图像匹配模型(比如 CLIP)得到迅速的发展。CLIP4Clip 初步实现将预训练的 CLIP 迁移到文本检索视频领域。
在此基础上,当前表现卓越的方法主要由两种方式实现:1)设计一个融合模块将文本特征与视觉特征进行融合,这使得检索的范式从双塔变为单塔;2)利用更细粒度的视觉和文本特征来实现对齐。
虽然检索的准确性变好了,然而这些方法的在线特征匹配计算的花费却快速上升。如下图所示(整体趋势从左下角向右上角发展):
因此我们提出了一个 recal