《读论文系列 图文检索 双编码器架构 VisualSparta》 An Embarrassingly Simple Approach

VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words使用加权词袋进行大规模文本到图像搜索的一种令人尴尬的简单方法

摘要

本文工作:文本到图像的搜索

本文:我们提出了VisualSparta,这是一种新颖的(Visualtext Sparse Transformer Matching)模型,效果好

1 介绍

现有的文本到图像检索模型可以大致分为两类:查询不可知模型和查询依赖模型。
双编码器架构是一种常见的查询无关模型,它使用两个编码器对查询和图像进行编码,然后通过内积计算相似性。(由于图像和文本是两个差异很大的模态,所以很自然地会想到先将图像和文本分别进行编码,然后再把它们的特征映射到一个共同的语义空间中,计算图像和文本的相似度。)

早期的图文检索模型基本都是双流结构的模型,他们主要的改进集中在:如何将2个模态特征映射到同一个语义空间对齐,计算图文相似度。)

转换器架构:每对文本和图像通过连接并传递到一个网络中进行编码,而不是由两个单独的编码器进行编码。(随着Transformer在图像领域的广泛应用和预训练大模型的兴起,开始有人提出,是不是可以直接采用同一个encoder编码两种模态,直接学习将它们对齐到一个语义空间里,而不需要先分别编码图文再做对齐。如何学到一个更好的视觉-文本联合特征

本文贡献:

(1)提出了一种新的检索模型,该模型在MSCOCO和Flickr 30K两个基准数据集上获得了最新的检索结果。

(2)加权词袋是跨模态检索的一种有效表示,可以有效地索引到倒排索引中,从而实现快速检索。

(3)详细的分析和烧蚀研究表明了该方法的优势和有趣的性质,为未来的研究方向提供了亮点。

2 相关工作

2.1双编码器匹配网络

使用双编码器对图像和文本进行编码

2.2预训练语言模型

3 VisualSparta Retriever

介绍VisualSparta  检索器。

(1)召回性能:学习查询和图像区域之间的细粒度关系

(2)速度性能:查询嵌入是非上下文化的

3.1模型结构

3.1.1文本查询表示

以前的方法:将查询的句子传到bi-RNN

本文方法:删除查询的顺序信息,使用预训练的标记嵌入来表示每个标记。也就是说每个令牌独立表示与本文上下文无关。

wi代表查询的第i个令牌

3.1.2视觉表示

我们使用来自三个来源的信息来表示它:区域视觉特征、区域位置特征和带有属性的标签特征

Regional visual features and location features(区域视觉特征和区域位置特征)

给定图像v,通过fasterRCNN得到n各区域视觉特征vi及其对应的位置特征li

将区域视觉特征vi和区域位置特征li连接起来得到Ei

Eimage代表单个图像的表示

带有属性的标签特征

使用预训练的词嵌入对Faster-RCNN模型得到的预测对象和相应属性进行编码

k表示属性标记化后的标记数

Etok、Epos和Eseg分别表示令牌嵌入、位置嵌入和分割嵌入

因此,图像可以由线性变换后的图像特征和标签特征拼接而成。

W和b是可训练的线性组合全职和偏置,将嵌入的a传送到Transformer编码器Timage,最后得到隐藏层输出:

3.1.3 得分函数

其中Eq.10捕获每个图像区域和每个查询词标记之间的片段级交互;

Eq.11通过ReLU和可训练偏差的组合产生稀疏嵌入输出;

Eq.12总结分数,通过日志操作对分数进行汇总,防止分数过大。

3.2检索训练

使用交叉熵损失来训练

‘试图在每个文本查询q的真实图像v +和不相关/随机图像v -之间做出决定。

3.3 高校索引和推理

VisualSpatra结构模型适合实时推理,由于查询嵌入是非上下文化的,可以计算每个查询wi和每个图形v之间的关系。

在离线索引期间,对于每个图像v,我们首先计算其区域与词汇表中的每个查询词之间的片段级交互,与Eq. 10相同。然后,我们缓存计算出的排名分数:

4 实验

4.1数据集

使用MSCOCO1和Flickr30K2个数据集进行文本到图像检索任务的训练和评估。

4.2评价指标

召回率

4.3实施细节

4.4实验结果

4.4.1召回率表现

MSCOCO (1K/5K)和Flickr30K数据集文本到图像检索结果的详细比较:

4.4.2速度表现

5 模型分析

5.1准确率灵活性法则

表3比较了MSCOCO 1K和5K分割在不同选择下的召回率和速度

5.2图像编码器的消融实验

为了进行性能比较,从图像编码器中删除了不同的组件。从表中,我们观察到删除属性特征(第1行)或带有属性的标签特征(第2行)只会对性能造成很小的影响。然而,当删除视觉特征并仅使用带有属性特征的标签进行图像表示时(第3行),似乎模型性能下降了很多,其中Recall@1得分从68.7%下降到49.1%(- 19.6%)

深度视觉特征对VisualSparta模型结构的贡献最大,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
零样本学习是一种重要的机器学习方法,用于处理那些没有被训练过的类别。一种尴尬地简单的零样本学习方法是使用属性向量来表示类别,而不是直接从训练数据中学习类别之间的关系。属性向量是一个描述类别特征的向量,可以用来衡量一个物体或概念的属性。通过使用属性向量,我们可以将类别表示为在属性空间中的点,进而进行零样本学习。这种方法的好处是可以在没有训练数据的情况下,根据已知的属性向量来推断新类别的特征。 具体而言,我们可以使用属性向量来表示图像的类别。例如,在处理动物分类问题时,我们可以用一个包含了“有四条腿”、“毛茸茸”等属性的向量来描述不同动物的特征。然后,我们可以将这些属性向量应用到零样本学习中,通过计算新图像与不同类别属性向量之间的相似度来判断图像所属的类别。这种方法的优势在于不需要额外的训练数据,只需从属性向量中提取特征并进行简单的计算即可完成零样本学习。 尽管这种方法可能显得太过简单,但它却可以在一定程度上解决零样本学习的问题。当我们面临没有训练数据的新类别时,使用属性向量来进行零样本学习是一种简单而有效的方法。当然,这种方法也有一些局限性,比如需要准确的属性向量和属性空间的定义,但它无疑为零样本学习提供了一种简单而实用的解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值