《visual relationship detection with language priors》,这也是李飞飞在CNCC上提到的一片重要论文,发表于ECCV。
此论文用来进行关系检测的主要方法是:分别训练两种视觉模型,一种来识别物体,一种来识别关系。
关系识别的一个挑战在于没有足够的关系训练样本。比如说骑行这个动作,图片可能是人骑马、人骑车、人骑骆驼等等,想要将这些样本统统搜集起来是高耗能的。本论文在进行关系检测的同时,也证实了这种方法用于zero-shot detection的可能性。
1517557257206_2.png
由图可见此方法的大体流程是:输入图片,经过RCNN产生多个物体检测框,每个物体检测框分别经过视觉模型和语言模型进行打分,给定阈值将得分高于阈值的输出得到关系标签(person - riding - horse)
Training Approach
Visual Appearance Module
训练了一个CNN来对100个物体进行分类,同时训练了另一个CNN来对70个predicates进行分类。这里有实验表明,将每个objects predicates对分开进行训练得到的效果要比visual phrases’ detectors(将所有对一起训练)好。则视觉模型V如下: