Paper:CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
Code:https://github.com/ArrowLuo/CLIP4Clip
简介:
CLIP4clip 做的是视频文字检索,这是一篇实验性质的论文,旨在探索 CLIP 模型在视频领域的应用。CLIP模型很适合做retrival的任务,因为它本身就是计算图像和文本的相似性。
总体框架:
a.文本为一个句子,将其tokenize之后输入一个文本编码器,得到一个cls token.
b.视频由很多帧组成,如果将每一帧直接分成image patch再把patch输入ViT,得到的不再是一个cls token,而是一系列cls token,加入patch为10,即有10个cls token,1:10时应该怎么做相似度计算呢。
-
Mean pooling,多个特征取平均变为一个特征,但没有考虑时序特性(如一个人逐渐站,一个人逐渐坐)。
-
Sequential type,考虑时序建模,将所有特征输入LSTM输出为一个特征,即融合了之前的时序信息,现在大多用Transformer取代了LSTM,对于Transformer来说