北大&FAIR&自动化所&快手提出基于动量对比学习的层次Transformer—HiT，用于视频文本检索！代码已开源！...

最新推荐文章于 2024-01-04 11:25:48 发布

我爱计算机视觉

最新推荐文章于 2024-01-04 11:25:48 发布

阅读量1.3k

点赞数 1

文章标签：大数据算法 python 计算机视觉机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/121528855

版权

文章介绍了北大、FAIR、自动化所和快手合作提出的HiT方法，这是一种用于视频文本检索的层次Transformer，结合动量对比学习，解决了现有方法在特征层次开发和负样本交互的限制。HiT通过特征级和语义级的层次对比匹配，以及动量跨模态对比，实现多视角的视频文本检索。实验结果显示HiT在多个基准数据集上表现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

▊ 写在前面

随着互联网上多媒体数据的增长，视频文本检索已经成为一个热门的研究课题。用于视频文本学习的Transformer因其良好的性能而受到越来越多的关注。然而，现有的跨模态Transformer方法通常受到两个限制：

1） 不同层具有不同特征的Transformer结构的开发受到了限制 ；

2） 端到端训练机制限制了mini-batch中的负样本交互 。

在本文中，作者提出了一种新的视频文本检索方法，称为层次Transformer（HiT） 。HiT在特征层 和语义层 进行层次化的跨模态对比匹配，实现多视角、综合检索结果。

此外，受MoCo的启发，作者提出动量跨模态对比用于跨模态学习，以实现大规模的负样本动态交互，这有助于生成更精确和更具辨别力的表示。在三大视频文本检索基准数据集上的实验结果表明了该方法的优越性。

▊ 1. 论文和代码地址

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

论文地址：https://arxiv.org/abs/2103.15049

代码地址：未开源

▊ 2. Motivation

跨模态检索已经引起了越来越多的关注，其目的是从不同模态中搜索语义相似的样本。互联网上视频内容的爆炸式增长给视频文本的准确检索带来了巨大的挑战。在本文中，作者重点研究了视频文本检索的学习，也希望能对其他跨模态任务有所启发。

最近的工作表明，Transformer可以学习高级视频表示。现有的跨模态学习方法大致可分为two-stream、single-stream和dual stream结构。

如上图（a）所示，Two stream 结构利用视觉Transformer和文本Transformer独立学习视觉和文本表示，然后引入多模态Transformer来实现跨模态信息交换。Singe-stream 架构，如上图（b）所示，在Transformer模型的初始阶段融合了视觉和文本表示。

但是，这两种体系结构不适用于大规模跨模态检索任务，因为它们需要的时间复杂度。在本文中作者采用了Dual Stream 的结构，如上图（c）所示，该结构已成为跨模态检索的最新趋势，具有

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。