牛津&剑桥&北大提出《TEACHTEXT》，用多种embedding在在文本视频检索中进行跨模态广义蒸馏！代码已开源！...

我爱计算机视觉

于 2022-06-12 23:54:07 发布

阅读量334

点赞数

文章标签：算法大数据编程语言 python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/125252632

版权

牛津、剑桥和北大合作提出TEACHTEXT算法，通过多种文本embedding在文本视频检索中进行跨模态广义蒸馏，提升检索性能，代码已开源。该方法在不增加计算开销的情况下，改善了多个视频检索基准的性能，并能有效消除数据集噪声。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

本篇文章分享论文『T EACH T EXT: CrossModal Generalized Distillation for Text-Video Retrieval』，牛津&剑桥&北大提出《TEACHTEXT》，用多种embedding 在在文本视频检索中进行跨模态广义蒸馏！代码已开源！

详细信息如下：

论文链接：https://arxiv.org/abs/2104.08271
项目链接：https://github.com/albanie/collaborative-experts

01

摘要

近年来，通过对视频和音频数据集进行大规模预训练来构建强大的视频编码器，文本视频检索任务取得了长足的进展。相比之下，尽管具有天然的对称性，但开发大规模语言预训练的有效算法的设计仍有待探索。

在这项工作中，作者首先研究了此类算法的设计，并提出了一种新的广义蒸馏方法TEACHTEXT，该方法利用来自多个文本编码器的互补线索为检索模型提供增强的监控信号。此外，作者将本文的方法扩展到视频端，并表明本文的方法可以在不影响性能的情况下有效减少测试时使用的模态数量。

本文的方法大大提高了几个视频检索基准的技术水平，并且在测试时不增加计算开销。最后，作者展示了本文的方法在消除检索数据集噪声方面的有效应用。

02

Motivation

这项工作的重点是文本视频检索—识别候选库中的哪个视频与描述其内容的自然语言查询最匹配。视频搜索在野生动物监测、安全、工业过程监测和娱乐等领域有着广泛的应用。此外，随着人类继续以越来越大的规模制作视频，有效执行此类搜索的能力对YouTube等视频托管平台具有至关重要的商业意义。

最近提出的检索方法的一个中心主题是研究如何最好地使用多个视频模态来提升性能。特别是，基于mixtures-of-experts和多模Transformer的架构显示了在相关任务中使用不同的预训练模型集作为训练和测试期间视频编码的基础的好处。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。