22-CVPR-SGTR End-to-end Scene Graph Generation with Transformer 学习笔记

最新推荐文章于 2025-05-01 16:54:33 发布

健身的程序猿

最新推荐文章于 2025-05-01 16:54:33 发布

阅读量689

点赞数 15

文章标签： transformer 学习笔记

本文链接：https://blog.csdn.net/weixin_43508459/article/details/141138334

版权

Abstract

目前现有的方法大多采用自下而上的两阶段或基于点的单阶段方法，而这些方法大多会导致很高的时间复杂度。因此本文提出了一个全新的场景图方法来解决上述提到的问题。为了解决这个问题，我们建立了一个基于transformer的端到端的框架来首先生成entity和predicate的建议集合，然后推断出有向边缘，构成关系三联体。具体的，我们使用了一个利用关系构成属性的结构化关系生成器来建立一个新的实体感知的关系表示。此外，我们设计了一个图组装模型来推断出二元场景图的连接性，这让我们可以使用一个端到端的方法来生成场景图。

Introduction

前人的方法中大多基于两种设计模式：bottom-up two-stage 和 point-based one-stage。

第一类方法往往首先是预测 $N$ 个实体的proposals，然后预测predicate的类别。但这类方法需要 $O(N^2)$ 的建议区域而且计算复杂度很高。

第二种方法则会分别从图像中获得实体和关系，目的是减小关系建议集合的大小。但是它们依赖于对相互作用区域的非重叠特性的假设，这极大的限制了其在复杂场景中的应用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如图一所示，我们将场景图生成变成一个二元图构造问题，每一个三元组可以被表示成两种类型节点（predicate and entity）的连接。这种方法可以让我们共同产生实体和关系建议区域和它们的潜在关系，产生一个丰富的假设空间来推断视觉关系。更重要的，我们提出了一个新的将相关的实体建议信息纳入的predicate表示方法，这丰富了实体表示并让我们建立一个高质量的predicate建议区域。

我们的模型具体由三部分组成：entity node generator, a predicate node generator and a graph assembling module。

本工作的主要贡献包括：

提出了一个包含二元图构造在内的全新的基于transformer的全景图生成方法。
建立了一个实体感知结构来利用视觉关系特性

Preliminary

场景图 $\mathcal{G_{scene}=\{V_e,E_r\}}$ 每一个实体 $\mathcal{v_i\in V_e}$ 都有一个bounding box和类别标签。两个节点对之间的predicate也有predicate label。

整个模型整体上可以被分为两个部分：1. node (entity and predicate) generation 2. directed edge connection。第一个阶段基于三个平行的子解码器来用实体信息增加predicate proposal。第二阶段本文设计了一个图形组装模块来生成二元场景图。

Approach

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的模型主要由四个子模型构成：（1）一个用于生成场景特征表示的骨干网络（2）基于transformer的entity node生成器，用于生成entity的proposal（3）一个结构化的predicate node生成器，用于编码predicate node（4）一个二元图组合模型来构造最终的二元图。

Backbone and Entity Node Generator

我们采用ResNet作为骨干网络，然后使用multi-layer Transformer编码器来扩张卷积特征。

由此产生的CNN+transformer特征被表示为 $Z\in R^{w\times h\times d}$ ，其中 $w 、 h 、 d$ 分别表示特征图的长宽和通道数。

我们将entity generator定义为一个映射函数 $\mathcal{F_e}$

输入为节点的初始Query（随机初始化了100个queries） $Q_e\in R^{N_e \times d}$ 和特征图 $Z$

输出为entity location $B_e\in R^{ N_e\times 4}$ 和类别得分 $P_e\in R^{N_e\times(C_e+1)}$ ，还有它们的相关的特征表示 $H_e\in R^{N_e\times d}$ 。

其中 $B_e=\{b_1,...,b_{N_e}\}$ ， $b=\{x_c,y_c,w_b,h_b\}$ 其中 $x_c,y_c$ 为instance的正则化中心坐标。 $w_b,h_b$ 为entity box的正则化宽和高。

Predicate Node Generator

本文的predecate node 生成器目标是通过将相关entity proposal 信息纳入到每一个predicate node的方法来生成entity-aware的predicate representation。这种方法可以编码predicate它的subject、object的潜在关系。如图2所示，predicate node 生成器由三部分组成：1. 关系查询的初始化模型（Predicate Query Initialization）。2.图像特征的predicate encoder 3. 结构化的关系解码器（predicate decoder）。

Predicate Encoder

encoder部分和Transformer的encoder部分一样，是由multi-layer multi-head 自注意力模块组成。最终的predicate预测特征结果输出为 $Z^p\in R^{w\times h\times d}$ .

Predicate Query Initialization

本文提出了一种组合式查询表示法对predicate查询进行解耦，最终结果得到 $Q_p^e\in R^{N_r\times 3d}=\{Q_{io};Q_{is};Q_{p}\}$ ，其中entity indicator $Q_{is},Q_{io}\in R^{N_r\times d}$ ，以及predicate representation $Q_{p}\in R^{N_r\times d}$ 。

为了得到这个结果，我们构造了一个几何感知的实体表示。首先得到初始化key 和 value $\in R^{N_e \times d}$ 。 $K_{init}=V_{init}=(H_e+G_e),G_e=ReLU(B_eW_g)$ ，（entity location $B_e\in R^{ N_e\times 4}$ ）其中 $G_e$ 是一个可学习的embedding of entity proposal。 $W_g$ 是一个将bbox转成embedding的转换函数。

这里和transformer略有不同，目的就是实现论文中提到的entity-aware。

这里存在的问题是 $N_r$ 的值是如何得到的？

然后会使用multi-head cross-attention的方法来处理初始向量。 $A (q, k, v) = FFN (M H A (q, k, v))$ ，因此最终的共公式为 $Q^e_p=A(Q_{init},K_{init},V_{init})W_e$ ，其中 $W_e\in R^{d\times 3d}$ 。子查询 $Q_{is} , Q_{io}$ 被称为entity indicator，因为它们将被用来捕捉下面的predicate—entity关联。

这里有个问题， $Q_{init}和K_{init},V_{init}$ 的向量维度对不上，这是因为这里使用的是cross-attention，相当于计算一个物体对另一个物体的影响，所以物体的数量维度可以不同。

Structural Predicate Node Decoder

该Decoder可以被分为三个子模块

Predicate Sub-decoder

该模块利用包含空间背景信息的图像特征图 $Z^p$ 来重新确定predicate的representation。同时该模块使用了cross-attention的机制 $\tilde{Q_p}=A(q=Q_{p},k=Z^{p},v=Z^{p})$ ，其中 $\tilde{Q_p}$ 是更新后的predicate representation。

Entity Indicator Sub-Decoders

我们采用在两个entity indicators $Q_{is},Q_{io}$ 和entity proposal feature $H_e$ 之间采用cross-attention。

Predicate-Indicator Fusion

提出了一种融合方案来校准predicate query 以及 entity indicator，其中 $W_i,W_p\in R^{d\times d}$

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

$Q_{is}^{l+1}=\widetilde{Q}_{is}^{l},Q_{io}^{l+1}=\widetilde{Q}_{io}^{l}$
基于之前得到的predicate queries，我们可以生成predicate的几何语义预测以及相关的entity indicator的位置和类别。其中 $P_p$ 是predicate的类别预测， $B_p$ 表示对应的subject和object的box中心坐标

entity indicator也用同样的方法的到对应的类别预测概率 $P_s,P_o\in R^{ N_r\times (C_e+1)}$ 以及它们的位置预测 $B_s,B_o\in R^{ N_r\times 4}$ 。总体来看，每一个predicate decoder layer都会产生所有predicate query的位置和分类。通过多层结构，predicate decoder可以逐渐提高predicate的quality。

Bipartite Graph Assembling

为了将 $N_e$ 个entity nodes和 $N_r$ 个predicate nodes结合起来，因此构造了一个对应矩阵 $M\in R^{N_r\times N_e}$ 。

具体来讲，我们通过在predicate decoder获得的entity位置预测和entity generator生成的entity节点位置之间的L1距离，以及在predicate decoder获得的entity分类得分和entity generator生成的entity节点分类得分之间的余弦相似度来确定对应矩阵。

以subject为例，其中 $d_{loc}$ 表示L1 distance， $d_{cls}$ 表示余弦距离。

同时，object entity也有一个相同的对应矩阵 $M^o\in R^{N_r\times N_e}$ ，然后我们保留得分最高的top-K个link。

最后就可以构造出场景图需要的三元组了。

Learning and Inference

损失函数为 $\mathcal{L}^{enc}$ 表示entity generator的损失函数， $\mathcal{L}^{pre}$ 表示predicate generator 的损失函数。 $\mathcal{L}^{pre}_i$ 和 $\mathcal{L}^{pre}_p$ 分别表示两个子编码器的损失函数。