原来的动作识别问题在于标注太难太贵,将动作表示为短语的latent space太大
本文的贡献:(1)将CLIP的image encoder换成video encoder,方法与CLIP4Clip几乎一样
(2)CLIP的ground truth来自于文本-图像对,几乎是独立的,所以只有对角线上是正样本。但这里的text是动作标签,当batch比较大的时候,同一行或一列会出现多个正样本,这时不再是一个one-hot的问题,所以把cross entropy换成KL divergence
(b)对文本做前缀、完型、后缀的prompt
(c)把时间和空间上的token放一起丢给网络学习,也就是加上position embedding
(d)shift是在特征图上做各种各样的移动,达到更强的建模能力,但又不增加计算量。视频领域需要时序上的改变,19年tsm的论文正式将shift应用到视频,从此大火。每个ViT block之间加一个tsm的module,增强模型持续建模的能力,又不额外引入参数
(efg)与CLIP4Clip一样,得到很多单帧表示后需要融合