Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval
解决问题:(1)单射嵌入(injective embedding)。当个别实例中存在歧义时,单射嵌入可能会受到影响。考虑一个具有多重含义/意义的模糊实例,例如,多义词和包含多个对象的图像。虽然每个意义/意义都可以映射到嵌入空间中的不同点,但是单射嵌入总是被迫找到一个点,这可能是所有需要的点的加权几何平均值(不准确)。对于视频和句子来说,这一问题变得更加严重,因为单个图像和单词中的歧义可以聚合和复合,严重限制了它在文本到视频检索等实际应用中的使用。(2)部分跨域关联。例如,文本语句可能只描述图像的某些区域,而忽略了其他部分,而视频可能包含与其关联的语句没有描述的额外帧。这些关联是隐式/隐藏的,使得文本描述所指的图像/视频的哪个部分不清楚。这对于单射嵌入尤其有问题,因为关于任何被忽略部分的信息都将丢失在映射点中,而且一旦映射,就无法从信息丢失中恢复
在这项工作中,我们通过将实例嵌入定义为一对一映射任务,提取实例的k个嵌入和优化映射函数,使其对模糊实例和部分跨模态关联具有鲁棒性,从而解决了上述问题。
主要思想:PIE-Net, Feature Extractors (RsNet, Bi-GRU, GloVe)
每一个模态都建立一个PIE-Net.首先Image encoder:ResNet-152的最后一个平均池化层形成局部特征Ψ(x)∈R7×7×2048,全连接层的输出得到了全局特征ϕx∈RH。Video encoder:ResNet-512对视频的T帧进行编码,得到Ψ(x)∈RT×2048,将得到的局部特征放到bi-GRU中,最后隐藏状态作为全局特征ϕx∈RH。Sentence encoder:使用GloVe生成L300-dim向量,作为局部特征Ψ(x)∈RL×300,将其喂到H个隐藏单元的bi-GRU,最后一个隐藏状态输出为全局特征ϕx∈RH。局部特征经过以下公式的一系列转换,最终形成Locally-guided features。
为避免信息冗余,将全局特征和转换后的局部特征进行融合,得到最终的K嵌入输出。如下式:。最终将两个模态的k嵌入输出,优化损失函数,,得到最小距离的一对一映射的结果。
创新点:
1.PIE-Net网络解决了单射嵌入的问题;
2.提供了一个新的数据集MRW dataset。与现有的包含描述视频中视觉内容的句子的视频句子数据集不同,该数据集包含描述对句子中描述的某些情况可能做出的反应的视频,这使得视频关联有些模糊。
不足之处:受数据集的限制比较大,文本编码生成的特征是由conmmon-crawl dataset完成的,未设定最小距离的界限。若存在查找的最小距离所对应的样本不符合真实,则需去预估。