关注公众号,发现CV技术之美
▊ 写在前面
随着互联网上多媒体数据的增长,视频文本检索已经成为一个热门的研究课题。用于视频文本学习的Transformer因其良好的性能而受到越来越多的关注。然而,现有的跨模态Transformer方法通常受到两个限制:
1) 不同层具有不同特征的Transformer结构的开发受到了限制 ;
2) 端到端训练机制限制了mini-batch中的负样本交互 。
在本文中,作者提出了一种新的视频文本检索方法,称为层次Transformer(HiT) 。HiT在特征层 和语义层 进行层次化的跨模态对比匹配,实现多视角、综合检索结果。
此外,受MoCo的启发,作者提出动量跨模态对比用于跨模态学习,以实现大规模的负样本动态交互,这有助于生成更精确和更具辨别力的表示。在三大视频文本检索基准数据集上的实验结果表明了该方法的优越性。
▊ 1. 论文和代码地址
HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval
论文地址:https://arxiv.org/abs/2103.15049
代码地址:未开源
▊ 2. Motivation
跨模态检索已经引起了越来越多的关注,其目的是从不同模态中搜索语义相似的样本。互联网上视频内容的爆炸式增长给视频文本的准确检索带来了巨大的挑战。在本文中,作者重点研究了视频文本检索的学习,也希望能对其他跨模态任务有所启发。
最近的工作表明,Transformer可以学习高级视频表示。现有的跨模态学习方法大致可分为two-stream、single-stream和dual stream结构。
如上图(a)所示,Two stream 结构利用视觉Transformer和文本Transformer独立学习视觉和文本表示,然后引入多模态Transformer来实现跨模态信息交换。Singe-stream 架构,如上图(b)所示,在Transformer模型的初始阶段融合了视觉和文本表示。
但是,这两种体系结构不适用于大规模跨模态检索任务,因为它们需要的时间复杂度。在本文中作者采用了Dual Stream 的结构,如上图(c)所示,该结构已成为跨模态检索的最新趋势,具有