Identity-Aware Textual-Visual Matching with Latent Co-attention文章翻译学习（ICCV）

最新推荐文章于 2024-03-25 16:32:19 发布

PokiFighting

最新推荐文章于 2024-03-25 16:32:19 发布

阅读量1.4k

点赞数 1

分类专栏：图像处理深度学习

深度学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

图像处理

1 篇文章 0 订阅

订阅专栏

原文链接：点击打开链接

Abstract

文本 - 视觉匹配旨在测量句子描述和图像之间的相似性。大多数现有方法在解决此问题时没有有效利用身份级别注释。在本文中，我们提出了一个用于文本 - 视觉匹配问题的身份感知两阶段框架。我们的stage-1 CNN-LSTM网络学习将跨模态特征嵌入到新的交叉模态交叉熵（CMCE）丢失中。第一阶段网络能够有效地筛选容易出现错误的配对，并为第二阶段训练提供初始训练点。第二阶段CNN-LSTM网络利用潜在的共同关注机制改进匹配结果。空间注意力将每个单词与相应的图像区域相关联，而潜在语义注意力将不同的句子结构对齐，以使得匹配结果对句子结构变化更稳健。对具有身份级别注释的三个数据集进行的大量实验表明，我们的框架以大幅度优于最先进的方法。

Introduction

识别自然语言描述与图像之间的对应关系和测量相似性是计算机视觉中的一项重要任务，并且具有许多应用，包括文本图像嵌入，零焦学习，和视觉QA。我们将这种普遍问题称为文本 - 视觉匹配，近年来越来越受到关注。这项任务是具有挑战性的，因为语言描述和图像外观之间的复杂关系是高度非线性的，并且对于类似的语言描述，图像外观存在较大的变化或细微的变化。

但是，在跨文本和可视域进行匹配时，基准数据集中提供的身份级别注释会被大多数现有方法忽略。

在本文中，我们提出了一个两阶段的身份感知文本 - 视觉匹配框架，它由两个深度神经网络组成。 Stage-1网络通过引入跨模式交叉熵（CMCE）丢失来有效地利用身份级别注释进行特征学习（参见图1），从而学习图像和语言描述的身份感知特征表示。训练结束后，它提供了初步的匹配结果，也是训练阶段2网络的初始点。阶段2深度神经网络采用潜在协同机制，共同学习空间关注和潜在语义关注以匹配显着图像区域和潜在语义概念以进行文本 - 视觉亲和度估计。

【图一：学习与身份级别注释进行文本与视觉匹配的深层功能。利用身份级别的注释可共同最小化内部身份差异并最大化身份间差异，从而产生更具有区别性的特征表示。】

我们的第一阶段网络由CNN和LSTM组成，用于学习文本和视觉特征表示。目标是最小化描述与属于相同身份的图像之间的特征距离。阶段1网络利用具有动态缓冲区的专用CMCE丢失，其隐含地使整个数据集中的内部身份特征距离最小化并且最大化身份间特征距离，而不是仅仅小型小型配件。相反，对于成对或三重损失函数，随着训练样本数量的增加，训练期间采样消极样本的概率将以二次方式或立方方式减少。

经过训练的第一阶段网络能够有效地筛选培训和测试中容易出现的错误匹配。然而，第一阶段CMCE损失的一个局限性在于，生成的文本和视觉特征没有紧密耦合。对第一阶段结果的进一步改进对于获得准确的匹配结果是至关重要的。我们的Stage-2网络是一个紧密耦合的CNN-LSTM网络，具有潜在的注意力。它采用一对语言描述和图像作为输入，并输出用二元交叉熵损失训练的文本 - 视觉匹配置信度。

用于语言编码的常规RNN在输入描述过长时难以记忆完整的顺序信息。它倾向于错过在句子开头出现的重要词汇。 RNN对于不同的句子结构也是变体。描述相同图像但具有不同句子结构的句子可以由具有较大差异的特征来表示。例如，“金发女孩穿着白色连衣裙和高跟鞋”，“女孩穿着高跟鞋和白色连衣裙”。她有金色的头发。“两个句子描述的都是同一个人，但第一个可能更关注”白色礼服和高跟鞋“，第二个可能会给”金发“赋予更高的权重。受到神经机器翻译中的对齐（关注）技术的启发，针对阶段2 CNN-LSTM网络提出了一种潜在的共同关注机制。视觉空间注意模块将单词与其相关的图像区域相关联。潜在语义关注模块将不同的句子结构与对齐解码器LSTM对齐。在LSTM的每一步，它学习如何权衡不同的单词的特征，以更稳定不变地应对变化的句子结构。

本文的贡献有三个。 1）我们提出了一种新颖的身份感知两阶段深度学习框架来解决文本 - 视觉匹配问题。第一阶段网络可以有效地筛选容易出现错误的匹配，也可以作为培训第二阶段网络的初始点。阶段2网络利用二进制分类细化匹配结果。利用大多数现有方法忽略的身份级别注释来学习更好的特征表示。 2）为了利用身份级别的注释，我们的stage-1网络采用了具有特征缓冲区的专用CMCE丢失。这种损失使得有效的特征嵌入和快速评估成为可能。 3）为我们的第二阶段网络提出了一种新的潜在的共同关注机制。它有一个空间关注模块，专注于每个输入单词的相关图像区域，以及一个潜在语义关注模块，可自动对齐不同单词的特征表示，以最大限度地减少句子结构变化的影响。

Related works

2.1 具有身份级别注释的视觉匹配

具有身份级别注释的视觉匹配任务，例如人员重新识别和人脸识别，以发展的很好。但随着样本数量的增加会变得不稳定，或者更难采样。

2.2 文本视觉匹配

2.3 身份感知的视觉文本匹配（两者结合）

虽然身份级别注释广泛用于视觉匹配任务，但很少用于文本视觉匹配。使用这样的注释可以通过最小化内部身份距离并捕获文本概念和视觉区域之间的关系来辅助跨域特征嵌入，这使得文本 - 视觉匹配方法对于每个域内的变化更加稳健。

(最相关的几篇文献及数据集)

3. Identity-AwareTextual-Visual Matching with Latent Co-attention

文本 - 视觉匹配旨在对图像和语言描述进行准确的验证。如何呢，许多存在的文本 - 视觉匹配数据集提供的身份级别注释并没有被有效地用于跨领域特征学习。在本节中，我们介绍一种新颖的用于文本 - 视觉匹配的身份感知两阶段深度学习框架。第一阶段CNN-LSTM网络采用专用的跨模态交叉熵（CMCE）丢失，它利用身份级别注释来最小化内部身份并最大化身份间特征距离。由于其线性评估时间，评估也很有效。在训练融合后，第一阶段网络能够筛选容易出现错误的匹配，并为训练第二阶段CNN-LSTM网络提供初始点。第二阶段网络进一步验证了与新型潜在共同关注机制的难以匹配。它以端到端的方式共同学习视觉空间注意力和潜在语义注意力，恢复视觉区域之间的关系，实现对句子结构变化的鲁棒性。

3.1 Stage-1 CNN-LSTM with CMCE loss

图2说明了阶段1网络的结构，图2是松散耦合的CNN-LSTM。给定输入文本描述或图像，对视觉CNN和语言LSTM都进行训练，以将输入图像和描述映射到联合特征嵌入空间中，使得属于同一身份的特征表示应该具有小的特征距离，而不同身份的人应该有很大的距离。为了实现这一目标，CNN-LSTM网络受到CMCE损失的培训。

【图二：阶段一—— 在每次迭代中，小批量中的图像和文本描述首先分别输入到CNN和LSTM中以生成它们的特征表示。然后通过将一种模式中的采样特征与另一种模式的特征缓冲器中的所有其他特征进行比较来计算CMCE损失（步骤-1）。 CNN和LSTM参数通过反向传播更新。最后，视觉和文本特征缓冲区被更新为采样特征（步骤2）。】

3.1.1 Cross-Modal Cross-Entropy Loss

对于传统的成对分类丢失[3,19]或三重最大边缘丢失[32,26]，如果训练集中有N个身份，则可能的训练样本数为O（N2平方）。通常难以抽取反面样本来学习有效的特征表示。另一方面，在评估阶段，成对或三重损失特征计算的时间复杂度将随着N的增加而呈二次曲线增长，这将花费大量的计算时间。为了解决这个问题，我们提出了一种新颖的CMCE损失，它有效地比较了每次迭代中从一种模式到另一种模式中所有N个身份的小批量n个身份特征。直观地说，采样的n个身份特征需要在其他形式中具有与其相应身份的高相似性，并且与整个身份集合中的所有其他N-n身份特征具有低相似性。跨模态相似性被计算为来自两种模式的特征的内积。通过使用所提出的损失函数，反面样本在每个训练时期都被覆盖，并且对所有测试样本进行采样的评估时间复杂度仅为O（N）。

在每次训练迭代中，将属于n个不同身份的小批量图像转换为视觉特征，每个视觉特征由v∈RD表示。 D是两种模式的特征嵌入维度。所有N个身份的文本特征被预先存储在文本特征缓冲区S∈RD×N中，其中Si表示第i个身份的文本特征。然后可以将视觉特征表示v与所有文本特征S之间的相似度计算为ST v。输入图像v与文本特征缓存器中的第i个身份相匹配的概率可以利用以下的交叉模态softmax函数：

其中σv是控制概率分布如何高峰的温度超参数。类似地，在每个过程中，也会对属于n个身份的一小部分句子描述进行采样。设s∈RD表示最小批量中的一个文本样本的特征。所有的视觉特征都预先存储在一个视觉特征缓冲区V∈RD×N中。 s在视觉特征缓冲区中与第k个身份相匹配的概率定义为

其中σs是另一个温度超参数。在每次迭代中，我们的目标是最大化以上文本和相应的身份对的匹配概率。然后可以将学习目标定义为最小化以下CMCE损失，

其中，TV和TS分别是视觉特征V和文本特征S的目标标识。其梯度计算为：

文本和视觉特征缓冲器能够有效地计算一个模态中的采样身份特征和另一模态中的所有特征之间的文本视觉相似性。这是我们的跨模态熵损失的关键。

在第一次迭代之前，图像和文本特征是由CNN和LSTM获得的。每个标识的文本和视觉特征存储在文本和视觉特征缓冲器中的对应行中。如果标识具有多个描述或图像，则其在缓冲器中的存储特征是多个样本的平均值。在每次迭代中，在前向传播之后，首先计算损失函数。视觉CNN和语言LSTM的参数通过反馈进行更新。对于采样的身份图像和描述，它们在文本和视觉特征缓冲器中的对应行由新生成的特征更新。如果对应的标识T具有多个实体图像或描述，则缓冲器行被更新为具有以下公式的运行加权平均值，STV＝0.5STV+0.5S和VTS＝0.5VTS+0.5V，其中S和V是新生成的文本和视觉特征，TS和TV表示它们的对应的身份。

虽然CMCE损失与SOFTMax损失函数具有相似的形成，但它们有较大的差异。首先，CMCE通过文本和视觉域传播梯度。它可以有效地嵌入来自不同领域的相同身份的特征并使它们相似，并扩大非对应身份之间的距离。第二，特征缓冲器存储不同模态的所有标识的特征表示，使得与所有身份的小批量样本之间的比较非常有效。

3.2 Stage-2 CNN-LSTM with latent co-attention

在训练之后，Stage-1网络能够有效地获得初始匹配结果，因为文本和视觉特征可以独立地为每个模态计算。然而，视觉和文本特征嵌入可能不是最优的，因为Stage-1将整个句子压缩成单个向量。单个单词和图像区域之间的对应关系没有建立以捕获词级相似性。阶段-1对句子结构的变化也很敏感。为了获得精确的匹配结果，对阶段-1匹配结果的进一步细化是理想的。对于第二阶段，我们提出了一个紧密耦合的CNN-LSTM网络，它具有潜在的共同关注机制，它将一对文本描述和图像作为输入并输出它们的匹配置信度。第二阶段框架将个体单词和图像区域与空间注意力相关联，以更好地捕捉单词级的相似性，并通过潜在的语义关注自动重新排列句子结构。受过训练的第一阶段网络是第二阶段网络的初始阶段。此外，它筛选容易出现的负面情况，因此只有来自阶段1结果的硬性否定匹配样本才用于培训阶段-2。有了第一阶段，阶段2可以专注于处理对最终结果影响最大的更具挑战性的样本。

第2阶段网络的网络结构如图3所示。输入图像的视觉特征由视觉CNN获得。字功能由编码器LSTM生成。在每个单词处，通过空间关注模块获得联合的单词图像特征，其将单词特征与其对应的图像区域相关联。解码器LSTM然后自动地对准单词的编码特征以增强对句子结构变体的鲁棒性。利用解码器LSTM的输出特征来获得最终匹配置信度。首次提出了空间和潜在语义共同关注的思想，并据此设计了网络。与用于NLP的LSTM解码器[4,31]不同，它们的每一步对应于特定的输出词，我们的语义解码器的每一步捕捉到潜在语义概念，并且步数被预定义为概念的数量。

【图三：空间注意力将相关视觉区域与每个输入词相关联，而潜在语义注意力通过空间注意模块自动对齐图像词语特征以增强对句子结构变化的稳健性。】

3.2.1 Encoder word-LSTM with spatial attention

对于视觉CNN和编码器LSTM，我们的目标是在每个输入词上生成一个联合词 - 视觉特征表示。简单的解决方案将简单地将视觉特征与每个单词的单词特征连接起来。然而，不同的单词或短语可能更多地涉及具体的视觉区域而不是整体图像。受到[31]的启发，我们采用空间关注机制来对每个单词的相关视觉区域加权。（一个大空间里可能还包含很多单词，需要更细致化）

给定输入句子描述，我们首先将每个单词编码为一个单独的矢量，然后通过全连接层和编码器LSTM将它们转换为特征矢量。我们用H = {h1，...，hT}，H∈RDH×T来表示单词特征，其中ht表示编码器LSTM在时间步t的隐藏状态，DH是隐藏状态维。令I = {i1，...，iL}，I∈RDI×L表示输入图像中所有L区域的视觉特征，其中DI是图像特征维度，而il是空间上的特征向量区域l。在时间步t，可以计算每个图像区域k上的空间注意力

其中WI∈RK×DI和WH∈RK×DH是将视觉和语义特征转换到相同的K维空间的参数矩阵，并且WP∈R1×K将耦合的文本和视觉特征转换为亲和度分数。在时间t处给出一个单词，所有L图像区域上的注意力ak被softmax函数归一化，并且应该总计为1.直观上，Ak表示第t个单词与第k个图像区域相关的概率。所获得的空间关注然后被用于通过加权平均选通视觉特征，

通过这种方式，门控视觉功能更注重相关区域到第t个单词。为了在每个单词中包含文本和视觉信息，我们将LSTM的门控视觉特征和隐藏状态作为空间注意模块的输出

3.2.2 Decoder LSTM with latent semantic attention

尽管LSTM具有记忆状态和忘记门来捕获长期信息，但它仍然面临着处理非常长的句子以将输入句子的所有信息压缩成固定长度的向量的挑战。对于句子结构的变化，它可能不够健壮。受到神经机器翻译中的对齐（注意力）技术的启发，我们建议使用具有潜在语义注意力的解码器LSTM来自动调整句子结构并估计最终的匹配置信度。注意，与机器翻译中的传统解码器LSTM不同，其中每个步骤对应于实际的单词，我们的解码器LSTM的每一步没有物理意义，而仅具有潜在语义意义。给定由编码器LSTM编码的最终特征，M步骤解码器LSTM逐步处理编码特征，同时搜索整个输入句子以对齐图像词特征xt，t = {1，...，T}。在解码过程的第m个时间步骤，计算第t个输入词的潜在语义注意力a'm

其中f是对第m个解码步骤中的第j个词的重要性进行加权的重要性函数。它建模了一个双层卷积神经网络。 cm-1是解码器LSTM对于步骤m-1的隐藏状态。在每个解码步骤m，语义关注“软”（？）通过加权求和来对齐字图像特征

对齐的图像字词特征x〜m然后被两个全连接层转换并且被馈送到M步骤解码LSTM中以获得最终的匹配置信度。通过自动将图像词特征与潜在的语义注意力对齐，在每个解码步骤中，解码器LSTM能够通过重新加权源图像词特征来增强网络对句子结构变化的鲁棒性，从而更多地关注相关信息。为了训练阶段2网络，我们还在构建文本图像训练对时使用身份级别的注释。如果图像和句子具有相同的身份，则将它们视为一对。通过stage-1网络过滤更容易的训练样本。解码器LSTM利用二元交叉熵损失进行训练，

其中N'是用于训练阶段2网络的样本的数量，Ci是第i个文本图像对的预测匹配置信度，并且y i表示其目标标签，其中1表示属于相同标识的文本和图像对， 0代表不同的身份。

4. Experiments

4.1. Datasets and evaluation metrics

CUHK-PEDES dataset：CUHK-PEDES数据集包含13,003个人身份的40,206幅图像。每个图像由两个句子描述。训练集中有11,003人，34,054张图片和68,108个句子描述。验证集和测试集分别包含3,078和3,074个图像，并且它们都包含1,000人。选择前1位和前10位的精确度来评估自然语言描述[15]后的人物搜索表现，这是查询文本与前1名和前10名得分图像之间成功匹配的百分比。

CUB dataset and Flower dataset：CUB和Flower数据集分别包含11,788个鸟图像和8,189个花图像，其中每个图像由10个文字描述标记。 CUB中有200个不同的类别，数据集分为100个训练，50个验证和50个测试类别。花有102个花类和三个子集，其中包括62个类别，20个验证和20个测试。我们使用与[26]相同的实验设置进行公平比较。培训班和测试班之间没有重叠。与[26]类似，身份类仅在训练期间使用，并且测试以新身份进行。我们报道了AP @ 50用于文本到图像检索以及图像到文本检索的前1精度。给定查询文本类，该算法首先计算与文本查询类的身份匹配的前50个检索图像的百分比。所有50个测试类别的平均匹配百分比表示为AP@ 50。

4.2. Implementation details

为了与不同数据集上的现有基线方法进行公平比较，我们选择了CUHK-PEDES数据集的VGG-16 [29]和CUB和Flower数据集的GoogleNet [30]作为视觉CNN。对于stage-1网络，视觉特征是通过L2-对VGG-16和GoogleNet的“drop7”和“avgpool”层的输出特性进行归一化来获得的。我们采用LSTM的最后隐藏状态对整个句子进行编码，并将文本向量嵌入到具有视觉图像的512维特征空间中。文本特征也是L2规范化的。等式（1）中的温度参数σv和σs。（1）和（2）经验地设定为0.04。利用Adam优化器对LSTM进行训练，学习率为0.0001，而CNN则用批量随机梯度下降进行训练。对于第二阶段CNN-LSTM网络，我们不是将视觉图像嵌入到一维向量中，而是将VGG-16的“pool5”图层或GoogleNet的“初始（5b）”图层的输出作为图像用于学习空间关注的表示。在训练阶段，我们首先训练语言模型并修正CNN模型，然后联合微调整个网络，以有效地耦合图像和文本特征。培训和测试样本通过阶段1的匹配结果进行筛选。对于每个视觉或文本样本，我们从第一阶段网络采集其他模式的20个最相似的样本，并为第二阶段训练和测试构建文本 - 视觉对样本。每个文本图像对分配有一个标签，其中1代表相应的一对，0代表不相应的一对。解码LSTM的步长M被设置为5。

4.3. Results on CUHK-PEDES dataset（和现有方法相比较）

我们比较了我们提出的两阶段框架与CUHK-PEDES数据集上的六种方法。表1中记录了文本到图像检索的前1和前10个准确度。请注意，只有文本到图像检索结果才会针对数据集进行评估，因为图像到文本检索不是一个对于数据集的实际问题。我们的方法以大幅度的优势胜过了最先进的方法，这证明了所提出的两阶段框架在将文本和视觉实体与身份级别注释进行匹配时的有效性。

我们的第一阶段模型胜过所有比较方法。与最先进的GNA-RNN [15]相比，我们提出的方法在前1精度方面的增益为2.50％，其网络结构比我们的网络结构更复杂。这显示了CMCE损失的优点。此外，引入特性缓冲区使得即使在大量身份的情况下比较计算也更有效率。GMM + HGLMM [12]使用Fisher Vector作为句子表示，通过汇集句子中每个单词的word2vec嵌入。Word CNN-RNN [26]旨在最小化相应的文本 - 视觉对之间的距离，并最大限度地提高每个小批量内非相应文本之间的距离。然而，这种方法受到最小批量大小的限制，不能应用于具有大量身份的数据集。我们的CMCE损失在top-1带来21.55％的准确性，其胜过Word CNN-RNN的10.48％。具有CMCE损耗的第一级CNN-LSTM在其精确性和时间复杂性方面表现良好因为其松散耦合的网络结构。

第二阶段的CNN-LSTM潜在的共同关注进一步提高了前1位和前10位精度的4.39％和5.70％。共同关注机制有效地将视觉区域与潜在语义概念对齐，以最小化句子结构变化的影响。与随机抽样的方法相比，如更深的LSTM Q +normI [3]，iBOWIMG [40]，NeuralTalk[31]和GNA-RNN [15]，我们的网络更注重区分过滤后的难的样本但第一阶段网络区分容易的不相关的样本。

4.4. Ablation studies

在本节中，我们通过对CUHK-PEDES数据集进行一系列消融研究，调查第一阶段和第二阶段网络中每个组分的影响。我们首先研究提议的CMCE损失的重要性。我们训练我们的第一阶段模型，用三重损失代替建议的损失 [26]，命名为“三联体”。如表2所示，与我们的第一阶段相比，CUHK-PEDES组的前1名下降了6.79％，并且具有新的损失函数。另外，三联体损失[26]需要3倍的训练时间。然后我们通过忽略注释来调查身份级别注释对文本 - 视觉匹配性能的重要性。在这种情况下，每个图像或句子都被视为一个独立的身份。与“Stage-2”的结果相比，“Stage-2w / o ID”的前1和前10的准确性分别为2.47％和5.71％，这表明身份级别注释可以帮助文本 - 视觉通过最小化身份内特征变化来进行匹配。

为了证明我们潜在的语义注意力的有效性，我们将它从原来的阶段2网络中删除，表示为“Stage-2 w/ o SMA”。前1精度下降2.36％，这表明潜在的语义注意力可以帮助对齐视觉和语义概念，并减轻LSTM对不同句子结构的敏感度。空间注意力试图将单词或短语与不同的视觉区域相关联，而不是整个图像。基于“Stage-2 w / o SMA”的框架，我们进一步从Stage-2网络中删除空间关注模块，表示为“Stage-2w / o SMA + SPA”，它可以被看作是一个简单的来自CNN和LSTM的视觉和文本特征的连接，随后是用于二元分类的两个完全连接的层。与“Stage-2w / o SMA”相比，前1位和前10位精度都下降了。

第一阶段网络能够为第二阶段网络的培训和评估提供样本，同时也是培训的起点。为了研究第一阶段网络的影响，我们设计了一个额外的基线，表示为“阶段-2W / O SMA + SPA +阶段-1”。这个基线在不使用第一阶段网络的情况下进行了训练。与“Stage-2 w / oSMA + SPA”基线相比，它表现出明显的性能下降，这表明了我们提出的框架中第一阶段网络的必要性。由于阶段1网络在评估阶段仅选择阶段2中每个查询文本的20个最接近的图像，因此某些组件的效果可能不会在前10的准确性方面显而易见。

4.5. Results on the CUB and Flower datasets

表3和表4显示了CUB和Flower数据集上图像文本和文本图像检索的实验结果。我们与两个数据集上的最新方法进行比较。 CNN-RNN [26]为语句特征嵌入学习CNN-RNN文本编码器，并将视觉和文本特征转换到相同的嵌入空间。不同的文本特征也与CNN-RNN方法结合使用。 Word2Vec [23]对句子描述中每个单词的预训练单词向量进行平均以表示文本特征。 BoW [9]是通过单层线性投影的单热矢量的输出。通过学习编码器功能，属性[2]将属性映射到嵌入空间。不同类型的文本表示与CNN-RNN框架结合进行测试。我们的方法在顶级1图像到文本检索的准确性方面比现有CNN-RNN的性能优越3％，在两个数据集上的文本图像检索AP @ 50方面的性能都超过10％，这表明该方法的有效性。对于“Triplet”基线，CUB数据集中Top-1和AP @ 50分别下降9.0％和3.1％，Flower数据集下降4.1％和3.1％，证明了所提出的损失函数比传统三元组损失。由于[26]提供的前1精度是通过将相同类别的句子融合成一个矢量来计算的，因此我们的阶段2网络因此不适用于图像到文本检索任务，因此我们只报告阶段1 图像到文本检索的结果已经超越了其他基线。

4.6. Qualitative results

我们还对所提议的方法进行定性评估。图4显示了示例文本到图像检索结果。大多数句子可以正确匹配与其描述相对应的图像。在第一种情况下，几乎所有的人都穿着一件带有“黑灰色和白色条纹”的毛衣。相同身份（第一，第二和第五人称图像）的不同图像出现在排名最高的结果中，这表明所提出的两阶段CNN-LSTM可以在不同域之间正确匹配身份，并最大限度地减少身份内距离。一些错误匹配的结果甚至对人类来说很难区分视觉外观的细微差异。在第二种情况下，第一个人和第二个人都穿着“白色短袖衬衫”，但只有第一个是由于肩上携带的“黑色钱包”而成为真正的匹配结果。

5. Conclusion

在本文中，我们提出了一种新颖的身份感知视觉语义匹配两阶段框架。该框架由两个深度神经网络组成。阶段1CNN-LSTM网络学习将输入图像和描述嵌入到相同的特征空间中，并且利用CMCE损失来将身份内距离最小化。它作为第二阶段训练的初始点，并通过筛选大多数不正确的配对，为第二阶段提供训练和评估样本。第二阶段网络是一个具有潜在协同机制的CNN-LSTM，它通过一个对齐解码器LSTM共同学习空间关注和潜在语义关注。它会自动对齐不同的单词和图像区域，以最大限度地减少句子结构变化的影响。我们在三个数据集上评估所提出的方法，并执行一系列消融研究来验证每个组件的效果。我们的方法大大优于最先进的方法，并且证明了提出的身份感知视觉 - 文本匹配框架的有效性。

PokiFighting

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
Identity-Aware Textual-Visual Matching with Latent Co-attention文章翻译学习（ICCV）

原文链接：点击打开链接Abstract文本 - 视觉匹配旨在测量句子描述和图像之间的相似性。大多数现有方法在解决此问题时没有有效利用身份级别注释。在本文中，我们提出了一个用于文本 - 视觉匹配问题的身份感知两阶段框架。我们的stage-1 CNN-LSTM网络学习将跨模态特征嵌入到新的交叉模态交叉熵（CMCE）丢失中。第一阶段网络能够有效地筛选容易出现错误的配对，并为第二阶段训练提供初始训练点。第...
复制链接

扫一扫