表现SOTA!在准确性和效率上都显著提高,可对大规模数据集进行实时搜索,性能优于CVSE、PFAN等网络。
注1:文末附【Transformer】流群
注2:整理不易,欢迎点赞,支持分享!
VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search
- 作者单位:CMU, SOCO(美国公司)
- 论文:https://arxiv.org/abs/2101.00265
文本到图像的检索是多模态信息检索中的一项基本任务,即在给定文本查询的情况下从大型且未标记的图像数据集中检索相关图像。在本文中,我们提出了VisualSparta,这是一种新颖的文本到图像检索模型,该模型在准确性和效率上都比现有模型显著提高。
部分细节如下:
我们证明VisualSparta能够胜过MSCOCO和Flickr30K中所有以前的方法。它还显示了实质性的检索速度优势,即对于具有100万张图像的索引