《读论文系列 》讲述、想象和搜索:用于合成文本和图像到图像检索的端到端学习

Tell, Imagine, and Search: End-to-end Learning for Composing Text and Image to Image Retrieval

 摘要

传统:以一个模态数据作为查询,检索另一个模态的相关数据。

本文:端到端的可训练网络,用于生成图像和CTI-IR

首先,它可以通过联合训练生成模型和检索模型来学习查询(带有文本描述的查询图像)的生成和判别特征。

其次,我们的模型可以通过合成图像和目标图像之间的对抗性学习,根据文本描述自动处理参考图像的视觉特征。

第三,利用全局-局部协同鉴别器和基于注意力的生成器,使我们的方法能够同时关注查询图像和目标图像之间的全局和局部差异。

1 介绍

该任务的一种常见方法是找到一个函数,将来自不同模态的数据样本转换为一个公共表示空间,在该空间中可以直接测量数据之间的相似性[76]。

本文:由文本和图像组成的图像检索(CTI-IR)。根据文本描述将参考图像的某些视觉属性更改为所需的视觉属性。

挑战:

1、查询中的文本描述通常描述对参考图像的期望更改,包括交互和一些高级语义概念。GAN

GAN:它可以根据文本描述通过对抗性学习来处理参考图像的视觉特征,它可以通过参考图像和文本描述合成图像

2、缩小查询(图像加文本)和目标(图像)之间的模态差距。

解决:相关损失[9,66]、三元组排序损失[8,32]和分类损失[28,68]。

我们提出的模型不仅需要将查询和目标对齐,还需要处理由文本描述指定的参考图像的视觉特征。

一方面,我们设计了基于gan的多阶段结构,根据文本描述编辑参考图像,并学习查询的判别组成特征;另一方面,我们在GAN中嵌入检索模型,以方便图像合成和图像检索。

具体地说,给定一个查询,teller首先向想象器输出该查询的视觉和文本特征。然后想象器猜测目标图像应该是什么样子。该过程采用基于gan的多阶段方法来完成,试图使查询和目标的特征分布无法区分。同时,我们可以得到查询的判别成分表示,并根据文本描述可视化参考图像的变化。

鉴别器Dg和Dl。Dg致力于关注生成图像与目标图像之间的全局差异,而Dl主要用于识别生成图像的局部修改。

贡献:

(1)通过探索生成对抗学习跨模态检索学习,提出了一种新的端到端学习模型,用于同时进行图像合成将文本和图像组合到图像检索

(2)通过生成图像与目标图像之间的对抗性学习,根据文本描述自动操纵参考图像的视觉特征,从而学习查询的判别表示。

(3)利用全局-局部协同鉴别器和基于注意力的生成器,可以更好地保证生成图像的语义一致性和细粒度细节,进一步提高图像检索模型的性能。

2 相关工作

2.1图像检索

草图到图像:Pang等人引入了一种判别生成混合模型,用于保留所有域不变信息,以减少草图和图像之间的域间隙。Zhang等人[73]和Chen等人[4]专注于学习跨模态哈希码,用于分类级草图的图像检索,使用端到端深度模型。

文本到图像:文本到图像检索试图弥合文本和图像之间的领域差距。Karpathy等人使用局部对齐将图像和文本嵌入到公共空间中。

参考图像+文本进行图像检索:由参考图像和文本描述组成的查询来检索目标图像,该查询用于对参考图像中的修改进行建模。

关键在于从参考图像中提取的视觉特征通过修改在文本描述中得到正确反映,并使查询与目标有效对齐。

2.2 生成对抗网络

GAN用于图像合成。这个目标函数会玩一个极大极小的游戏来改进鉴别器d(一个用于区分真实图像和生成图像的函数)和生成器g(一个用于合成难以与真实图像区分的图像的函数)。

3 方法

3.1总览

三个阶段::跨模态特征提取(teller)、图像生成(imaginer)和CTI-IR (searcher)。

在第一阶段,teller通过卷积图像编码器和长短期记忆(LSTM)文本编码器从查询中提取特定于模态的表示。

经过图像编码器后得到全局视觉特征向量和一个局部区域图像矩阵

文本编码器输入:文本描述 输出:句子特征向量e-和单词特征矩阵e

在第二阶段,应用多阶段GAN(想象器)通过生成的新图像和真实目标图像之间的对抗性学习,从文本描述方面学习参考图像的操纵视觉特征v0^.

多阶段GAN由子阶段组成:初始图像生成和两个子阶段的图像细化

每个子阶段包括一个生成器G和两个鉴别器Dg和Dl。

首先将查询的特征输入生成器G以合成图像。然后将生成的图像和目标图像分别输入到鉴别器Dg和Dl中。

Dg用于区分生成图像X^和目标图像Xt之间的全局差异,Dl学习生成图像的局部修改。

为了学习更多的判别特征,我们采用了两个图像细化阶段。最后,通过聚合来自初始图像生成子网络和图像细化子网络的被操纵特征,在第三阶段,应用图像检索模型(搜索器)来执行CTIIR任务。

3.2学习

给定参考图像x、文本描述r和目标图像xt,我们的学习问题的目标有三个:

(1)学习查询(参考图像x加文本描述r)和目标图像xt的判别特征;

(2)为文本r指定的参考图像x合成图像x;

(3)利用学习到的判别特征训练图像检索模型用于我们的CTI-IR任务。

第二部分各个子阶段的工作流程:

首先将递归神经网络(RNN)中的全局图像特征向量vg句子特征向量e¯门控递归单元(GRU)[6]进行连接,如下所示:

然后将组合特征V0^送入初始生成器G0。生成器G0也由一个完全连接层和四个分数跨行卷积层组成。在G0的帮助下,可以合成一个初步图像X0^:

然后,从X0^中提取局部区域图像特征Vl0单词特征矩阵e输入到注意模型fatn()中,形成单词-上下文向量,再与Vlo结合生成新的特征V1^

在图像细化阶段,V1^与发生器G1G2合成细节更多,分辨率更高的逼真图像。

F()为拼接层

生成损失:

鉴别器Dg的对抗损失定义:

鉴别器Dl的损失函数:参考图像x、生成图像X^和目标图像Xt首先在鉴别器Dl中编码,将X^和Xt的视觉特征与x进行融合。

DAMSM损失:衡量视觉和文本分布之间的匹配程度

4 实验

4.1 数据集

Fashion200k[16]、MIT-States[20]和CSS[58]。Fashion200k[

4.2实验

与时尚200k上最新方法的比较

“Image only”和“Text only”表示仅使用参考图像或修改文本进行CTI-IR任务。

拼接是指将从参考图像和修改文本中提取的特征通过两层MLP融合,得到用于查询的组合特征,然后用于训练图像检索模型。

Show and Tell[57]使用LSTM对查询中的参考图像和文本进行编码,并在CTI-IR任务中采用该LSTM的最终状态。参数哈希[42]将文本描述中的文本特征编码为一个变换矩阵,然后将其应用于参考图像中的视觉特征,得到一个在CTI-IR任务查询中同时考虑图像和文本信息的组合特征。关系[49]中组合查询的表示是通过对一组关系特征求和得到的,这组关系特征是文本特征和视觉特征的连接。MRN[26]对参考图像和文本描述之间的联合残差映射进行逐元素乘法,并通过对最后一个特征映射进行线性变换获得查询的特征。FiLM[45]在图像编码器中注入了一个基于特征的反射变换来获得用于查询的组合特征,而TIRG[58]通过在图像编码器的一层使用门控残差连接来简化了FiLM中的变换。

4.3 消融实验

5 结论

        提出了一种基于多阶段GAN的新型端到端可训练网络,用于同时生成图像和检索图像。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值