Abstract
提出了一个semantic graph Transformer (SGT),目标是将点云场景变成一个目标结构图。目前基于GCN的场景图生成模型面临两个问题:1. GCN固有困境之过渡平滑。2. 只能从有限的邻接节点传播信息。因此该模型采用Transformer-based的网络来获取全局信息。
具体来看,该模型包含了两个Transformer层:1. 提出了一个图嵌入层,来更好的利用图中边的信息。2. 提出了一个语义注入层,来利用文本标签和视觉对象知识。
Proposed Approach
该模型分为两个模块Graph Embedding Layer(GEL)and Semantic Injection Layer(SIL)。
Node and Edge feature generation
输入是有instance label但没有category label的点,然后用pointnet进行特征提取,得到物体的特征。假设所有的物体之间都有边,因此边的特征由相连的两个物体的特征得到。
||表示拼接
Graph Embedding Layer
Multi-Head Edge-aware Self-Attention
上图可以看出有三个输入但是只有两个输出,三个输入分别是边的特征,两个节点的特征。输出分别是节点i的特征和新一轮的边的特征,其中使用 V i V_i Vi作为query,使用 V j V_j Vj作为key和value,然后获得edge-aware self-attetnion maps M i j l , h ∈ R d h M_{ij}^{l,h}\in R^{d_h} Mijl,h∈Rdh:
其中 h h h表示head, l l l表示第 l l l层, O O O都表示线性层的矩阵。为了保持数值稳定性,在 softmax 内部对项取指数后的输出将被限制在 [-5,5] 的范围内。之后,输出 $ \hat{V}{i}^{l+1}$ 和 $\hat{E}{ij}^{l+1} $\分别被传递到前馈网络(FFN)中,该网络前后都连接有残差连接和标准化层。
Semantic Injection Layer
这里首先通过ChatGPT获取到场景中的文本描述,再通过CLIP模型对其进行文本特征的提取,然后将CLIP提取到的文本特征通过cross-attention机制将其与视觉特征融合起来。
Cross attention
损失函数
focal loss 用于物体和关系的分类
通过语义处理层来获取语义相似度损失