Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation 学习笔记

Abstract

提出了一个semantic graph Transformer (SGT),目标是将点云场景变成一个目标结构图。目前基于GCN的场景图生成模型面临两个问题:1. GCN固有困境之过渡平滑。2. 只能从有限的邻接节点传播信息。因此该模型采用Transformer-based的网络来获取全局信息。

具体来看,该模型包含了两个Transformer层:1. 提出了一个图嵌入层,来更好的利用图中边的信息。2. 提出了一个语义注入层,来利用文本标签和视觉对象知识。

Proposed Approach

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该模型分为两个模块Graph Embedding Layer(GEL)and Semantic Injection Layer(SIL)

Node and Edge feature generation

输入是有instance label但没有category label的点,然后用pointnet进行特征提取,得到物体的特征。假设所有的物体之间都有边,因此边的特征由相连的两个物体的特征得到。

||表示拼接

Graph Embedding Layer

Multi-Head Edge-aware Self-Attention

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上图可以看出有三个输入但是只有两个输出,三个输入分别是边的特征,两个节点的特征。输出分别是节点i的特征和新一轮的边的特征,其中使用 V i V_i Vi作为query,使用 V j V_j Vj作为key和value,然后获得edge-aware self-attetnion maps M i j l , h ∈ R d h M_{ij}^{l,h}\in R^{d_h} Mijl,hRdh

其中 h h h表示head, l l l表示第 l l l层, O O O都表示线性层的矩阵。为了保持数值稳定性,在 softmax 内部对项取指数后的输出将被限制在 [-5,5] 的范围内。之后,输出 $ \hat{V}{i}^{l+1}$ 和 $\hat{E}{ij}^{l+1} $\分别被传递到前馈网络(FFN)中,该网络前后都连接有残差连接和标准化层。

Semantic Injection Layer

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里首先通过ChatGPT获取到场景中的文本描述,再通过CLIP模型对其进行文本特征的提取,然后将CLIP提取到的文本特征通过cross-attention机制将其与视觉特征融合起来。

Cross attention

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

损失函数

focal loss 用于物体和关系的分类

通过语义处理层来获取语义相似度损失

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值