一、前言
1.论文要解决的问题:
输入: MSCOCO,Flickr30K
输出: image to text (text to image):rank
2, 本文的方法创新:
提出了一种新的计算loss的方案,主要针对与hard negtive,加大样本与hard negtive 的距离
二、论文方法
Embedding
1) 图像采用VGG19或者ResNet152进行特征提取
2) 文本描述采用GRU将文本与图像映射到同一个子空间
通过卷积网络与序列网络分别得到图像和文本的特征:
二者相似度度量采用二者的内积进行计算:
Loss
在近来的多模态检索、图文匹配、文本描述与图像检索等问题中大多采用triplet loss:
其中
α
\alpha
α代表margin