AAAI 2024 | 计算量减少50倍!快手提出两阶段文本到视频检索架构算法

b5b44b5a60dbb468c20672dfa68768a6.gif

3bb8a840d1a753260f8f26eb6897df0c.png

论文标题:

Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning

论文作者:

Kaibin Tian, Yanhua Cheng, Yi Liu, Xinglin Hou, Quan Chen, Han Li

论文链接:

https://arxiv.org/abs/2401.00701

代码链接:

https://github.com/adxcreative/EERCF

e5712e60453188e5fb1e870034d89a2f.png

摘要

近年来,从网络收集大规模图像文本进行预训练的文本图像匹配模型(比如 CLIP)得到迅速的发展。CLIP4Clip 初步实现将预训练的 CLIP 迁移到文本检索视频领域。

在此基础上,当前表现卓越的方法主要由两种方式实现:1)设计一个融合模块将文本特征与视觉特征进行融合,这使得检索的范式从双塔变为单塔;2)利用更细粒度的视觉和文本特征来实现对齐。

虽然检索的准确性变好了,然而这些方法的在线特征匹配计算的花费却快速上升。如下图所示(整体趋势从左下角向右上角发展):

dbdfb191489876716b6bba32936bb6d6.png

因此我们提出了一个 recal

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值