【图文】Learning Image-Text Embeddings with Instance Loss

使用实例损失学习图像-文本嵌入

在这里插入图片描述最新版应该是2020发表在ACM上的

本文从实例级别上来考虑cross-modal检索问题(无监督)

图像和文本都有丰富的语义,但是停留在异构模式中,将图像和文本映射到一个共享的特征空间是一个挑战。

过去,通常使用ranking loss(使正样本对之间的距离比负样本对之间的距离小于预定义margin)作为image-text表征学习的目标函数。
在这里插入图片描述
如上图:动机。将image/text组定义为一张图像和与其相关的句子。我们观察到,一个图像/文本组彼此之间或多或少存在差异。因此,我们在训练期间将每个image/text视为一个不同的类,从而产生实例损失。

每对训练样本中包含一个视觉特征和一个文本特征,ranking loss集中在两种模式之间的距离上,而没有明确考虑单个模态中的特征分布。那么对于两个相近(语义略有不同)的测试图像,这类精细粒度的任务(比如区别灰狗和黑狗)就比较难以完成。在实验中也证明使用ranking loss可能会导致网络陷入局部最小值。

本文使用image-text匹配数据集来微调word2vec模型[T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space,” arXiv:1301.3781, 2013. ]。而Instance Loss旨在为ranking loss提供更好的权重初始化,从而产生更discriminative和鲁棒的image-text描述。

本文提出一个双流(dual-path)CNN模型用于视觉-文本嵌入学习。即在该任务中,CNN+CNN的结构比RNN+CNN更加高效。
在这里插入图片描述如下图,深度图像CNN和深度文本CNN的基本块。与图像的局部模式类似,句子中的邻接词可能包含重要线索。图像CNN中的滤波器尺寸为3X3带有高度和宽度填充;文本CNN中的滤波器带下为1X2带有长度填充。此外,我们还使用了一个shortcut连接,这有助于训练深度卷积网络。输出F(x)+x和输入x具有相同的大小。
在这里插入图片描述

训练过程分为两个阶段:
Stage I 使用固定的经预训练的image CNN并仅使用instance loss训练text CNN(往往需要从头进行训练),以避免预训练好的image CNN受损;
Stage II 对整个网络进行端到端的微调(结合instance loss和ranking loss),包括image CNN。

实验结果:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ca1m4n

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值