Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

本文链接：https://blog.csdn.net/HYY233/article/details/103530831

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

解决问题：（1）单射嵌入（injective embedding）。当个别实例中存在歧义时，单射嵌入可能会受到影响。考虑一个具有多重含义/意义的模糊实例，例如，多义词和包含多个对象的图像。虽然每个意义/意义都可以映射到嵌入空间中的不同点，但是单射嵌入总是被迫找到一个点，这可能是所有需要的点的加权几何平均值(不准确)。对于视频和句子来说，这一问题变得更加严重，因为单个图像和单词中的歧义可以聚合和复合，严重限制了它在文本到视频检索等实际应用中的使用。（2）部分跨域关联。例如，文本语句可能只描述图像的某些区域，而忽略了其他部分，而视频可能包含与其关联的语句没有描述的额外帧。这些关联是隐式/隐藏的，使得文本描述所指的图像/视频的哪个部分不清楚。这对于单射嵌入尤其有问题，因为关于任何被忽略部分的信息都将丢失在映射点中，而且一旦映射，就无法从信息丢失中恢复

在这项工作中，我们通过将实例嵌入定义为一对一映射任务，提取实例的k个嵌入和优化映射函数，使其对模糊实例和部分跨模态关联具有鲁棒性，从而解决了上述问题。

主要思想:PIE-Net, Feature Extractors (RsNet, Bi-GRU, GloVe)

每一个模态都建立一个PIE-Net.首先Image encoder：ResNet-152的最后一个平均池化层形成局部特征Ψ(x)∈R7×7×2048，全连接层的输出得到了全局特征ϕx∈RH。Video encoder:ResNet-512对视频的T帧进行编码，得到Ψ(x)∈RT×2048，将得到的局部特征放到bi-GRU中，最后隐藏状态作为全局特征ϕx∈RH。Sentence encoder：使用GloVe生成L300-dim向量，作为局部特征Ψ(x)∈RL×300,将其喂到H个隐藏单元的bi-GRU,最后一个隐藏状态输出为全局特征ϕx∈RH。局部特征经过以下公式的一系列转换，最终形成Locally-guided features。