《CLIP2Video: Mastering Video-Text Retrieval via Image CLIP》 2021论文阅读

作者从宏观的角度重新定义了视频文本检索,将其分为图像-文本多模态学习和视频帧与视频文本之间的时间关系。针对这两方面的考虑,作者提出了CLIP2Video网络,将图像-语言预训练模型转换为视频-文本检索,该模型基于一个图像-语言预训练模型和两个时间块,在精细的时间帧中捕捉运动,并分别对视频和语言之间的标记进行重新对齐。

Temporal Difference Block

由于空间ViT建模帧内的关系没有考虑时间

因此,为了利用不同帧间的交互,作者提出了一个Lt层的temporal transformer来编码视频特征,拼接ViT输出的frame embedding作为frame token。由于两个连续帧之间的差异可以反映出实际的action,作者利用相邻时间戳之间的帧嵌入的差异来描述motion change

通过在整体减法上采用注意变换,将连续帧嵌入的减法编码为各片段的长期关系,并归一化为[- 1,1]表示差异。

然后将differenceenhanced tokens Fd添加到每一个相邻帧中,再输入到temporal Transformer中,进一步增强了捕捉动作相关信息的敏感度

 

Temporal Alignment Block

Text representation:

使用CLIP的text encoder,tokenized captions用[CLS]和[SEP]标记开始和结束,使用最后的输出[CLS]来和视频特征进行全局匹配

受Netvlad的启发,作者提出了temporal alignment block使用共享的聚类中心来聚合不同模态的token embedding

使用点积来计算不同模态特征和共享中心的相关度,并赋予每个cluster不同的权重来衡量分布

为了进一步使得motion-related frame tokens对于action-described centers的权重更高,作者又进行了重采样 -- 稀疏采样帧嵌入,隔一帧一采

 大帧率下的Ff1采样丢失了语义一致性,突出了运动的变化,这有利于作为补充信息重新调整运动相关中心的权值分布。

 Loss function

使用重采样后的对齐特征和Temporal Difference Block的输出特征一起计算loss

 


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值