北大&FAIR&自动化所&快手提出基于动量对比学习的层次Transformer—HiT,用于视频文本检索!代码已开源!...

文章介绍了北大、FAIR、自动化所和快手合作提出的HiT方法,这是一种用于视频文本检索的层次Transformer,结合动量对比学习,解决了现有方法在特征层次开发和负样本交互的限制。HiT通过特征级和语义级的层次对比匹配,以及动量跨模态对比,实现多视角的视频文本检索。实验结果显示HiT在多个基准数据集上表现出优越性能。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

 写在前面

随着互联网上多媒体数据的增长,视频文本检索已经成为一个热门的研究课题。用于视频文本学习的Transformer因其良好的性能而受到越来越多的关注。然而,现有的跨模态Transformer方法通常受到两个限制:

1) 不同层具有不同特征的Transformer结构的开发受到了限制

2) 端到端训练机制限制了mini-batch中的负样本交互

在本文中,作者提出了一种新的视频文本检索方法,称为层次Transformer(HiT) 。HiT在特征层语义层 进行层次化的跨模态对比匹配,实现多视角、综合检索结果。

此外,受MoCo的启发,作者提出动量跨模态对比用于跨模态学习,以实现大规模的负样本动态交互,这有助于生成更精确和更具辨别力的表示。在三大视频文本检索基准数据集上的实验结果表明了该方法的优越性。

 1. 论文和代码地址

ef37b4597c581f927a4eedbc95c7190e.png

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

论文地址:https://arxiv.org/abs/2103.15049

代码地址:未开源

 2. Motivation

跨模态检索已经引起了越来越多的关注,其目的是从不同模态中搜索语义相似的样本。互联网上视频内容的爆炸式增长给视频文本的准确检索带来了巨大的挑战。在本文中,作者重点研究了视频文本检索的学习,也希望能对其他跨模态任务有所启发。

最近的工作表明,Transformer可以学习高级视频表示。现有的跨模态学习方法大致可分为two-stream、single-stream和dual stream结构。

069990112fdb370b522c1427b78461d7.png

如上图(a)所示,Two stream 结构利用视觉Transformer和文本Transformer独立学习视觉和文本表示,然后引入多模态Transformer来实现跨模态信息交换。Singe-stream 架构,如上图(b)所示,在Transformer模型的初始阶段融合了视觉和文本表示。

但是,这两种体系结构不适用于大规模跨模态检索任务,因为它们需要的时间复杂度。在本文中作者采用了Dual Stream 的结构,如上图(c)所示,该结构已成为跨模态检索的最新趋势,具有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值