Abstract
现有的SGG方法只假设场景图是同质的(homophily),但忽略了它们的异质性(heterophily)。因此本篇文章提出了一个异质学习网络(HL-Net),因此HL-Net包括以下内容:
- 一个适应性强的重加权的transformer模型,该模型可以有效的将不同层的信息进行聚合来利用物体的同质和异质信息。
- 一个关系特征传播模块,通过考虑异质性来有效地探索关系之间的联系,以完善关系表示。
- 一个异质感知的信息传递机制来进一步区分物体和关系之间的异质和同质,此举可以促进图中的信息传递。
Introduction
目前已有的模型的问题: 只假设了目前所有的节点和节点的关系是同质的,这些方法通过隐含地将所有(对象/关系)视为属于同一类别来计算(对象/关系)之间的关联性。但事实证明场景图一般是异质的类别。因此,我们认为来自不同类别的(对象/关系)应当被直接建模。
所谓“场景图一般是异质的”是指一种新的图类型:异构图,异构图就是指在图中,不同类别的节点(节点特征差距较大)之间往往存在连接。而相应的同构图则是指在图中,同一类别的节点(节点特征相似)之间往往存在连接。而目前多数的SGG模型都是基于同质图的假设,将相连的节点间的信息进行传递,而这是有问题的。
异构图可以通过图的异构率进行判别,异构率是指图中异构边(对应的两个节点不属于同一类别)除以图中总的边数,达到一个给定的量的时候认为此时图是异构的。
在SG中使用异构性需要考虑两个方面的问题:
- 应考虑到对象和关系中的异质性,但是目前没有显式考虑SG的异构性的模型,且没有在视觉关系上使用异构GNN的模型。
- 两个具有明显遮挡特征的对象/关系通常具有相似的视觉外观,尽管它们来自不同的类别,这增加了区分异质性和同质性的难度。
文章还提出了Adaptive Reweighting Transform、er(ART),此attention完善了对象表示,进行了异质的考虑。同时还提出了Relationship Feature Propagation(RPF) 来探索不同异质关系的连接。这个模型要同时解决特征传播的有效性以及它得是一个异质的模型。为了降低模型的复杂度,本文只需要每一个relationship连接相邻的relationship。为了传播关系之间的异质特征,我们在高通过滤器中使用了 PageRank-based GNN 网络来传递相关的高频率图信号。
最后,文章还制定了一个 Heterophily-aware Message Passing(HMP) 机制来定义在视觉场景中不同物体和关系之间的同质和异质性。
Heterophily Learning Network
HL-Net的框架首先通过Faster R-CNN。然后通过两个全新的模型来提高SGG的表现:(1)ART模型允许在异质性考虑下的不同物体之间的消息传递。(2)RFP模型探索在两个异质关系之间的联系。此外,HL-Net包括了HMP机制来定义在复杂的视觉场景下的不同关系和物体的同质和异质性。
ART模型通过平均在物体表征之前的信息基于异质的信息传递来提高物体分类的能力。RFP通过使用异质关系来提高预测predicate的表现。HMP机制来识别物体之间的异质性和同质性,以及关系之间的异质性,并提高ART和RFP的表现。
Preliminary
Notations
符号 | 含义 |
---|---|
x i x_i xi | 对节点i [ 视觉外观特征 , 物体分类概率 , 空间特征 ] [视觉外观特征,物体分类概率,空间特征] [视觉外观特征,物体分类概率,空间特征]的特征组合进行线性变换 |
x i j x_{ij} xij | box i i i 和box j j j 的联合外观特征(从bbox的重叠区获得的特征) |
x i j k x_{ijk} xijk | i j k ijk ijk对应的box的联合特征 |
r i j r_{ij} rij | 节点 i i i和节点 j j j的关系特征 |
B i j B_{ij} Bij | 节点 i i i和节点 j j j的空间特征,通过在二进制图上使用两个卷积层和两个FC层,特征维度变化为 14 × 14 × 2 14\times14\times2 14×14×2,最后每个特征通道表示一个节点的空间 |
B i j , k B_{ij,k} Bij,k | 表示 i , j i,j i,j的联合box和节点 k k k之间的bbox |
⊙ \odot ⊙ | 点乘 |
N i \mathcal{N}_i Ni | 第 i i i个结点的邻居节点集合 |
N r i j \mathcal{N_{r_{ij}}} Nrij | r i j r_{ij} rij的邻居关系集合 |
W W W | 线性传播矩阵 |
w w w | 线性传播向量 |
Homophily and Heterophily
- homophily:同质性描述的是节点倾向于拥有一个相同类别的邻居节点。
- Heterophily:异质性指节点指节点倾向于拥有不同类别的邻居节点
计算图中一个节点
V
\mathcal{V}
V的同质性的公式:
h
=
1
∣
∣
V
∣
∣
∑
i
∈
V
∣
∣
N
i
s
∣
∣
∣
∣
N
i
∣
∣
h=\frac{1}{\mathcal{||V||}}\sum_{i\in\mathcal{V}}\frac{\mathcal{||N_i^s||}}{\mathcal{||N_i||}}
h=∣∣V∣∣1i∈V∑∣∣Ni∣∣∣∣Nis∣∣
其中
V
\mathcal{V}
V表示图中节点集合,
∣
∣
N
i
s
∣
∣
\mathcal{||N_i^s||}
∣∣Nis∣∣表示和自身拥有相同label的邻居节点数,
∣
∣
N
i
∣
∣
\mathcal{||N_i||}
∣∣Ni∣∣表示所有邻居节点数。因此
h
→
1
h\rightarrow1
h→1表示很强的同质性。
Adaptive Reweighting Transformer(ART)
为了解决以前模型的同质性问题,提出了ART模块,该模块由两部分组成:Pre-LN Transformer和Adaptive Graph Filter
Pre-LN Transformer
使用下列公式获得节点i和j的背景系数 c i j c_{ij} cij
然后使用Pre-LN模块来稳定模型的训练。第i个节点的邻居信息 可以用下列公式进行聚合:
其中 σ \sigma σ表示ReLU激活函数, α i j \alpha_{ij} αij表示背景系数, α i j = s o f t m a x ( N o r m a l i z e ( c i j ) ) \alpha_{ij}=softmax(Normalize(c_{ij})) αij=softmax(Normalize(cij))。然后我们采用Layer Normalization、FFN layer和残差连接来重定义节点表示。最终,第 u u u层第 i i i个节点可以表示为:
Transformer中的FNN层说白了就是一个FC层
Adaptive Graph Filter
目前已有的GNN方法大多强调将不同层的非负权重的输出聚合在一起,这个聚合过程可以被强调为低通的图滤波器。但是这个滤波器会抑制高频成分,如果GNN层的输出在负权重上可以被聚合,就可以获得一个异质的多项式图过滤器。根据上述分析,ART给出的节点的最终表示为:
U U U表示GNN层的数量, γ u \gamma_u γu表示第 u u u层GNN的权重。值得注意的是, γ u \gamma_u γu可以是一个负值,并以端到端方式与整个HL-Net同时进行优化。为了获得场景图的异质属性,我们使用一种高通滤波的方法初始化 γ u \gamma_u γu
证明过程在附录
其中 T ∈ ( 0 , 1 ) \mathcal{T}\in(0,1) T∈(0,1)是一个超参数,最终,节点的分类得分可以表示为 v i = s o f t m a x ( W v x ^ i ) v_i=softmax(W_v\hat{x}_i) vi=softmax(Wvx^i)。
The difference between ART and current MP modules
ART模型和目前已有的图中的消息传递模型的区别主要在哪里?首先目前已有的消息传递网络可以被分为两个类型:pairwise-based message passing (P-MP) and union-based message passing (U-MP) 。
首先是P-MP模型,对于第 u u u层的节点 v i v_i vi的特征表示为:
其中 A f \mathcal{A}_f Af表示一个线性融合函数,获得归一化的背景系数,整体上其实就是利用中心节点和邻居节点的特征计算一个传递系数,然后将邻居节点的信息传递到中心节点上。
U-MP则是利用两个节点的联合信息 x i j x_{ij} xij来计算两个节点之间的关联性。它本质上是先利用一个高阶函数连计算背景信息然后利用一个Transform模型来优化这个背景信息。因此可以表示为:
而本文中提出的Pre-LN Transformer 则在U-MP的基础上增加了 B i j B_{ij} Bij,并合理的利用了残差连接、LN、FFN,并利用了attention机制。
然后在获得最终的节点表示上前人使用的是Stacked Propagation(SP)也就是一层层将节点信息进行叠加,该种方法在异质图上并不适用,因为无法使用负权重。而本文提出的Adaptive Graph Filter(AGF)则可以通过给每一层的权重 γ u \gamma_u γu赋予负值来传递异质信息:
Relationship Feature Propagation(RFP)
目前已有的SGG工作基本上都会忽略关系之间的关联性。因此本文使用RFP模型来使用异质环境下的内部predicate连接。
RFP的一个直观的设计选择是使用与ART相同的架构,但是对于 N N N个物体会有 N ( N − 1 ) N(N-1) N(N−1)个潜在的关系连接,因此会有很高的计算复杂度。为了解决上述的问题,我们采用了两个战略。第一,只对具有相同subject或者object的关系进行连接建模;第二,我们利用节点之间的信息传递系数来指导边缘,因为关系之间的连接可以被解耦为其相关对象之间的连接。
r i j r_{ij} rij的表示方式如下:
其中 ∗ * ∗表示: x ∗ y = R e L U ( W x x + W y y ) − ( W x x − W y y ) ⊙ ( W x x − W y y ) x*y=\mathrm{ReLU}(\mathbf{W}_xx+\mathbf{W}_yy)-(\mathbf{W}_xx-\mathbf{W}_yy)\odot(\mathbf{W}_xx-\mathbf{W}_yy) x∗y=ReLU(Wxx+Wyy)−(Wxx−Wyy)⊙(Wxx−Wyy)。然后获取到初始的节点i和j之间的relation分类得分向量:
然后,我们获得从邻居关系传递来的信息:
其中 α ^ j l , α ^ m j \hat{\alpha}_{jl},\hat{\alpha}_{mj} α^jl,α^mj表示正则化的背景信息(ART中指出过计算方法), N i \mathcal{N}_i Ni在表格中有含义解释。为了传播模型的高频信息,本文提出了一种对关系 r i j r_{ij} rijn层的传播公式:
其中 β \beta β表示远距离传输的概率,这控制了 p i j p_{ij} pij以多快的速度离开 p i j 0 p^0_{ij} pij0,这个公式可以像一个高通过滤器一样操作,因为其允许 β \beta β表示为0。最后,节点i和节点j的关系可以表示为:
其中 K K K表示RFP层的层数。 f i j f_{ij} fij表示关系分配向量,这个分配向量是目前图像领域场景图生成中常用的关系分配向量
Heterophily-aware Message Passing
异质性的存在导致GNN的表现出现退化,目前有工作通过允许类间关系以一个负信号传播。这种操作使类间节点的平均距离在聚合程序中受到的影响较小。
为了更好的区分场景图中的异质和同质性,我们定义了一个信号函数来调整节点和边之间的非负的背景系数。此外,这个信号函数表示它们是否属于相同的类别。最后,用两个节点之间的union box来生成这个sign信息
其中 [ , ] [,] [,]表示concatentation操作。在学习的时候,会构造一个二元交叉熵(BCE)Loss来将其和真实的sign label进行比较, y i j s ∈ { − 1 , 1 } y_{ij}^s\in\{-1,1\} yijs∈{−1,1},其中1表示两个节点属于同一个类型,-1表示不属于同一个类型。为了集成sign信息。
最后两个节点间的信息传递可以表示为:
同时,在关系信息传播的时候也将该信号融入进去:
SGG by HL-Net
L v 和 L e \mathcal{L_v}和\mathcal{L_e} Lv和Le是关系和节点分类的标准的交叉熵损失。 L b c e v \mathcal{L_{bce}^v} Lbcev和 L b c e e \mathcal{L_{bce}^e} Lbcee分别表示在物体和关系分类上的sign prediction。
在最终测试的时候,第i个节点的物体类别由下列等式确定:
最后第i个和第j个节点之间的关系可以由下列等式表示: