目录
2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
Abstract
在视觉关系检测中,人为标记的关系被视为确定关系。然而,有大量未标记的数据,如不太重要甚至没有关系的对象对。将这些未标记但可能有用的数据称为不确定关系。尽管有大量的文献存在,很少有方法利用这些不确定关系来检测视觉关系。
本文研究了不确定关系对视觉关系检测的有益影响。提出了基于多模态特征的不确定关系学习网络(MF-URLN),在关系检测方面取得了很大的改进。具体地,MF-URLN根据设计的标准,通过将对象对与人为标记的数据进行比较,自动生成不确定关系。然后,MF-URLN从视觉、空间、语言三个互补模态中提取并融合对象对的特征。此外,MF-URLN提出了两个相关子网络:一个子网络决定确定性置信度,另一个子网络预测关系。
Introduction
视觉关系检测的目标是检测对象对,同时预测对象对之间的关系。视觉关系一般表示为主谓宾三元组。由于关系三元组是对象和谓词的组合,所以分布是长尾的。
不确定关系包括:
(1)具有关系但未被人为标记的对象对
(2)没有关系的对象对
(3)具有被检测错误的对象的对象对
不确定关系可以作为确定关系的补充,因为:
(1)包含负样本
(2)反映了人类的不喜欢偏好,如不太显著的未标记关系和不寻常表示的关系,杯子在桌上而不是桌子在杯下
(3)不需要人为注释,对视觉关系检测具有有益影响
MF-URLN中,提出了一个生成器来自动生成有用的不确定关系。具体地,使用一个目标检测器来检测对象,两个不同的对象组成一个对象对;然后用一个设计的标准将这个对象对和人为标记的关系进行比较。没有对应确定关系的对象对被分类为不确定关系。对于每个对象对,MF-URLN从三种不同的模态:视觉、空间、语言提取并融合特征。这些特征全面地在一个关系上收集信息。然后,MF-URLN构造两个相关的子网络:一个将对象对描述为确定或不确定,另一个预测关系。此外,第二个子网络使用来自第一个子网络的信息。根据两个子网络的得分决定最终的关系。
主要贡献:
使用不确定关系改进视觉关系检测。提出了一种自动获取有效不确定关系的方法,并提出了一种利用这些不确定关系进行视觉关系检测的模型。
MF-URLN
object detector
定位和检测对象:Faster R-CNN、VGG-16
首先抽样300个IoU>0.7的RPN生成的建议区域。在分类之后,对300个建议区域执行IoU>0.4的NMS。得到的建议区域中类别概率大于0.05的被视为一幅图中的检测对象。
undetermined relationship generator
不确定关系的不同数据集严重影响检测性能。因此,引入了一种自动生成有用的不确定关系的快速方法。
具体地,两个不同的检测对象组成一个对象对。然后,为了分类,将所有对象对与手动注释的关系进行比较。
undetermined relationship learning network
包括multi-modal feature extraction network和relationship learning network
multi-modal feature extraction network
视觉模态特征:有助于收集同一类别在不同情况下的类别特征和多样性。使用来自Faster R-CNN的VGG-16 with ROI pooling,从主宾的各自的框中和对象对中的联合框中提取视觉特征。
空间模态特征:是视觉模态特征的补充,因为ROI pooling删除了对象对的空间信息。(使用坐标计算)
语言模态特征:从语言知识中提供了对象之间的相似性,这些相似性难以从视觉表象和空间位置中得到。在MF-URLN中,从对象检测器中获取对象类别;然后根据与分类器相关的标签提取两种语言模态特征:外部语言特征(维基百科2014的预训练word2vec模型来提取主语和宾语的语义表示,可能包含噪声,因为训练文本不局限于关系)和内部语言特征(作为补充,基于朴素贝叶斯和拉普拉斯平滑计算训练集中所有关系三元组的频率,根据主宾类别将频率转换为概率分布)。
特征融合:同一模态内转换后串联,不同模态转换后串联
relationship learning network
determinate confidence subnetwork:决定了对象对的确定置信度,反映对象对被人为选择和标记的概率。
relationship detection subnetwork:预测所有对象对的关系。
Experiments
github有代码