《CLIP2Video: Mastering Video-Text Retrieval via Image CLIP》 2021论文阅读

李加贝_

于 2021-09-09 15:23:48 发布

阅读量1.3k

点赞数

文章标签：深度学习机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38990652/article/details/120202089

版权

作者从宏观的角度重新定义了视频文本检索，将其分为图像-文本多模态学习和视频帧与视频文本之间的时间关系。针对这两方面的考虑，作者提出了CLIP2Video网络，将图像-语言预训练模型转换为视频-文本检索，该模型基于一个图像-语言预训练模型和两个时间块，在精细的时间帧中捕捉运动，并分别对视频和语言之间的标记进行重新对齐。

Temporal Difference Block

由于空间ViT建模帧内的关系没有考虑时间

因此，为了利用不同帧间的交互，作者提出了一个Lt层的temporal transformer来编码视频特征，拼接ViT输出的frame embedding作为frame token。由于两个连续帧之间的差异可以反映出实际的action，作者利用相邻时间戳之间的帧嵌入的差异来描述motion change

通过在整体减法上采用注意变换，将连续帧嵌入的减法编码为各片段的长期关系，并归一化为[- 1,1]表示差异。

然后将differenceenhanced tokens Fd添加到每一个相邻帧中，再输入到temporal Transformer中，进一步增强了捕捉动作相关信息的敏感度

Temporal Alignment Block

Text representation：

使用CLIP的text encoder，tokenized captions用[CLS]和[SEP]标记开始和结束，使用最后的输出[CLS]来和视频特征进行全局匹配

受Netvlad的启发，作者提出了temporal alignment block使用共享的聚类中心来聚合不同模态的token embedding

使用点积来计算不同模态特征和共享中心的相关度，并赋予每个cluster不同的权重来衡量分布

为了进一步使得motion-related frame tokens对于action-described centers的权重更高，作者又进行了重采样 -- 稀疏采样帧嵌入，隔一帧一采

大帧率下的Ff1采样丢失了语义一致性，突出了运动的变化，这有利于作为补充信息重新调整运动相关中心的权值分布。

Loss function

使用重采样后的对齐特征和Temporal Difference Block的输出特征一起计算loss

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。