Towards Affordable Semantic Searching: Zero-shot Retrieval via Dominant Attributes, AAAI 2018
1. 概要
论文首次提出了零样本检索任务(Zero-shot Retrieval, ZSR)。 该任务中包括两种场景,一种是通过未知类别图像的主要属性信息查询实例图像(Attributes to Image, A2I);另一种是利用一张未知类别的图像检索其对应的主要属性信息(Image to Attributes, I2A)。
2. 主要工作
利用类别信息和属性信息构建了新的属性向量。在该属性向量的基础上通过引入潜在空间构建了属性与视觉之间的关系,从而实现了在属性信息和视觉信息之间的相互检索。
3. 核心方法
3.1 构建新的属性向量
利用类别与每一个原有属性(增强属性,S=C+M)之间的关系构成的向量来表示新的属性向量:
其中类别与属性之间的关系由下式进行计算:
Φ , ψ \Phi ,\psi Φ,ψ分别表示在concept和单词级别的计算。上式表示了每个类别中单词与属性中单词关系的平局值。其中,每个类别单词与属性单词之间的关系可由下式进行计算:
由于单词词性很多,直接用单词进行比较并不是一个明智的选择。在论文中,利用log-odds rato作为嵌入函数用于评估单词之间的关系:
假设属性的先验概率是一样的,可借助贝叶斯公式获得以下关系:
利用每个单词与属性 w s {w_s} ws中最近的单词之间的距离代替相应的概率值,可以得到如下形式:
至此,可以求得重新构建的类别级别的属性。
3.2 构建潜在空间
在一般的零样本学习中,会构建如下的损失函数获取视觉特征想属性特征映射的转换矩阵 P P P:
但是作者人为,这种方式仅仅从类别角度进行划分而非实例角度,另外一些属性之间可能会存在很强的相似性。为了解决该问题,作者引入了一个正交投影变换:
通过交替优化的方式对上式进行求解: