ECCV 2018
主要思路:分别对文本和图像应用attention的机制,学习比较好的文本和图像表示,然后再在共享的子空间中利用hard triplet loss度量文本和图像之间的相似性。
图像特征:采用ResNet-101的Faster R-CNN网络对每一个图像产生k个目标区域,提取每一个目标对象的特征,嵌入矩阵变换为h维的vector
文本特征:文本的每一个word得到one-hot vector,embedding后为300维的vector,再用双向GRU得到h维的vector(bi-directional GRU)