论文阅读-Clip4Clip:An Empirical Study of CLIP for End to End Video Clip Retrieval(视频领域)

Paper:CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

Code:https://github.com/ArrowLuo/CLIP4Clip

简介:

    CLIP4clip 做的是视频文字检索,这是一篇实验性质的论文,旨在探索 CLIP 模型在视频领域的应用。CLIP模型很适合做retrival的任务,因为它本身就是计算图像和文本的相似性。

总体框架:

a.文本为一个句子,将其tokenize之后输入一个文本编码器,得到一个cls token.

b.视频由很多帧组成,如果将每一帧直接分成image patch再把patch输入ViT,得到的不再是一个cls token,而是一系列cls token,加入patch为10,即有10个cls token,1:10时应该怎么做相似度计算呢。

  • Mean pooling,多个特征取平均变为一个特征,但没有考虑时序特性(如一个人逐渐站,一个人逐渐坐)。

  • Sequential type,考虑时序建模,将所有特征输入LSTM输出为一个特征,即融合了之前的时序信息,现在大多用Transformer取代了LSTM,对于Transformer来说

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值