CLIP论文之后,涌现了很多任务,由于原始CLIP是为了图像设计的,因此这篇博文整理了几篇改装CLIP进行视频理解的工作。关于CLIP细节不做赘述,可以参考博主以前的博文:
CLIPBERT
来自CVPR2021。作者的motivation来自于,目前大部分预训练模型都使用提前提取好的特征提取器,然而1)固定的特征对于不同的下游任务来说不是最优的,且不同的模态的特征相互独立。2)密集的视频特征的计算量要求较高,以原视频作为输入太慢了,因此特征提取器很难参与到微调中。
因此作者提出了CLIPBERT,通过稀疏采样,即只使用一个或几个稀疏采样的视频短片段来代替整个视频,以less-is-more的原则使模型可以负载端到端学习。如上图所示,该模型仅仅使用少量的短片段即可,然后对多个短片段的预测进行融合如平均池化,以得到最终在整个视频级上的预测。这种先稀疏训练后密集推理的策略可以大大减少内存需求和计算量。具体的CLIPBERT的结构如下图所示:
博主个人觉