Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers

快速和慢速思考:使用Transformers进行高效的文本到视觉检索

摘要

我们的目标是基于语言的大规模图像和视频数据集搜索。该方法将文本和视觉独立映射到一个联合嵌入空间,即双编码器,具有较好的检索比额和使用近似最近邻搜索的数十亿幅图像的效率。另一种使用具有交叉注意的视觉文本变压器的方法,相对于联合嵌入的方法,在准确性方面有相当大的改进,但由于测试时每个样本所需的交叉注意机制的成本,在实际中往往不适用于大规模检索。这项工作结合了两方面的优点。我们做出了以下三个贡献。首先,我们为基于转换器的模型配备了新的细粒度交叉注意架构,在保持可伸缩性的同时显著提高了检索精度。其次,我们介绍了一种通用的方法,通过蒸馏和重新排序,将Fast dual encoder编码器模型与我们的缓慢但精确的 transformer-base的模型相结合。最后,我们在Flickr30K image数据集上验证了我们的方法,在这里我们展示了推理速度的几个数量级的提高,同时得到了与目前水平相当的结果。我们还将我们的方法扩展到视频领域,改进了VATEX数据集的现状。

引用

Motivation

对于language-based的搜索问题来说,目前有两种主流方法:一种是Dual Encoders,也即文本和图像分别通过不同的网络进行编码,再映射到同一个特征空间去,然后计算KNN来得到匹配的图片;另外的方法为Cross Attention,也即将文本和图像同时输入到Transformer中去,互相计算attention,这种方法效果会好一些,但是对于检索任务而言,需要消耗非常大的资源,很难落地。

原因在于,如果计算相似度,前一种方法的图像、文本只需要分别过一次网络计算一次embedding的即可,计算复杂度是O(n);而后者需要两两配对过一次网络,非常耗时,O(n^2) 时间复杂度,如果需要检索的图库非常大,那么时间开销很恐怖。因此,本文的目的在于利用知识蒸馏和Re-Ranking的方法,在保证准确率的同时,提高大规模图像检索的效率

Contribution

  • 对cross-attention的网络进行改进,采用的up-sampling操作来提取图像特征。
  • 利用蒸馏(distillation)和重排序(re-ranking),结合Fast dual encoder model 和 slow transformers-based model来进行推理。
  • 提高跨模态检索问题的推理速度,且效果也不差。

方法

如下图,左边是Fast model,右边是Slow model。按一般想法来说,我们希望用Fast model对所有的图像进行初步筛选,然后再用Slow model进一步筛选得到最终的结果。(这就是所谓的Re-ranking,原文Fast model 筛选出Top50,将这50张图像送到右边去进一步排序),而所谓的蒸馏,其实就是在Fast model训练的时候,用Slow model进行指导,以期得到更准确的结果。

在这里插入图片描述

视觉Transformer (五) Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers

【论文笔记】Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers

这篇可以的下面这个

跨模态检索论文阅读|Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
自然语言和视觉连接是一种研究方法,旨在通过语言和图像的融合,改进车辆检索系统。这种方法利用了自然语言处理和计算机视觉的技术,以实现更准确和智能的车辆检索。 在过去的几年中,对于车辆拍摄的图像进行自动检索的研究得到了迅速的发展。传统的车辆检索方法主要基于图像中的颜色、纹理和形状等视觉特征。然而,这些方法往往存在局限性,无法捕捉到车辆的更细致特征,也无法解决语言和图像之间的关联问题。 自然语言和视觉连接的研究方法通过融合语言和图像的信息,使车辆检索系统具备了更强的智能化能力。该方法首先通过自然语言处理技术,将用户的描述或查询翻译成机器可理解的语义表示。然后,利用计算机视觉技术,对图像进行分析和处理,提取出视觉特征。最后,将语义表示和视觉特征进行匹配,以实现车辆检索。 这种连接语言和视觉的方法可以克服传统车辆检索方法的局限性,实现更准确和智能的车辆检索。通过语言的引导,系统能够更好地理解用户的查询意图,并从图像中精确地捕捉到车辆的特征。同时,通过与视觉信息的融合,系统能够提供更全面和准确的搜索结果,提高了检索的准确性和效率。 总而言之,连接语言和视觉的研究方法为自然语言驱动的车辆检索系统的发展带来了新的机遇。这种方法通过融合语言和图像信息,提高了车辆检索的准确性和智能化程度,为用户提供更好的检索体验。随着自然语言处理和计算机视觉技术的不断进步,我们相信连接语言和视觉的车辆检索方法将在未来取得更多的突破和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值