牛津&剑桥&北大提出《TEACHTEXT》,用多种embedding在在文本视频检索中进行跨模态广义蒸馏!代码已开源!...

牛津、剑桥和北大合作提出TEACHTEXT算法,通过多种文本embedding在文本视频检索中进行跨模态广义蒸馏,提升检索性能,代码已开源。该方法在不增加计算开销的情况下,改善了多个视频检索基准的性能,并能有效消除数据集噪声。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美


本篇文章分享论文『T EACH T EXT: CrossModal Generalized Distillation for Text-Video Retrieval』,牛津&剑桥&北大提出《TEACHTEXT》,用多种embedding 在在文本视频检索中进行跨模态广义蒸馏!代码已开源!


详细信息如下:

c1c1ae5e362987aaa74c0f993c689c06.png

  • 论文链接:https://arxiv.org/abs/2104.08271

  • 项目链接:https://github.com/albanie/collaborative-experts

      01      

摘要

近年来,通过对视频和音频数据集进行大规模预训练来构建强大的视频编码器,文本视频检索任务取得了长足的进展。相比之下,尽管具有天然的对称性,但开发大规模语言预训练的有效算法的设计仍有待探索。

在这项工作中,作者首先研究了此类算法的设计,并提出了一种新的广义蒸馏方法TEACHTEXT,该方法利用来自多个文本编码器的互补线索为检索模型提供增强的监控信号。此外,作者将本文的方法扩展到视频端,并表明本文的方法可以在不影响性能的情况下有效减少测试时使用的模态数量。

本文的方法大大提高了几个视频检索基准的技术水平,并且在测试时不增加计算开销。最后,作者展示了本文的方法在消除检索数据集噪声方面的有效应用。

      02      

Motivation

这项工作的重点是文本视频检索—识别候选库中的哪个视频与描述其内容的自然语言查询最匹配。视频搜索在野生动物监测、安全、工业过程监测和娱乐等领域有着广泛的应用。此外,随着人类继续以越来越大的规模制作视频,有效执行此类搜索的能力对YouTube等视频托管平台具有至关重要的商业意义。

最近提出的检索方法的一个中心主题是研究如何最好地使用多个视频模态来提升性能。特别是,基于mixtures-of-experts和多模Transformer的架构显示了在相关任务中使用不同的预训练模型集作为训练和测试期间视频编码的基础的好处。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值