作者从宏观的角度重新定义了视频文本检索,将其分为图像-文本多模态学习和视频帧与视频文本之间的时间关系。针对这两方面的考虑,作者提出了CLIP2Video网络,将图像-语言预训练模型转换为视频-文本检索,该模型基于一个图像-语言预训练模型和两个时间块,在精细的时间帧中捕捉运动,并分别对视频和语言之间的标记进行重新对齐。
Temporal Difference Block
由于空间ViT建模帧内的关系没有考虑时间
因此,为了利用不同帧间的交互,作者提出了一个Lt层的temporal transformer来编码视频特征,拼接ViT输出的frame embedding作为frame token。由于两个连续帧之间的差异可以反映出实际的action,作者利用相邻时间戳之间的帧嵌入的差异来描述motion change
通过在整体减法上采用注意变换,将连续帧嵌入的减法编码为各片段的长期关系,并归一化为[- 1,1]表示差异。
然后将differenceenhanced tokens Fd添加到每一个相邻帧中,再输入到temporal Transformer中,进一步增强了捕捉动作相关信息的敏感度
Temporal Alignment Block
Text representation:
使用CLIP的text encoder,tokenized captions用[CLS]和[SEP]标记开始和结束,使用最后的输出[CLS]来和视频特征进行全局匹配
受Netvlad的启发,作者提出了temporal alignment block使用共享的聚类中心来聚合不同模态的token embedding
使用点积来计算不同模态特征和共享中心的相关度,并赋予每个cluster不同的权重来衡量分布
为了进一步使得motion-related frame tokens对于action-described centers的权重更高,作者又进行了重采样 -- 稀疏采样帧嵌入,隔一帧一采
大帧率下的Ff1采样丢失了语义一致性,突出了运动的变化,这有利于作为补充信息重新调整运动相关中心的权值分布。
Loss function
使用重采样后的对齐特征和Temporal Difference Block的输出特征一起计算loss