Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation 学习笔记

健身的程序猿

于 2024-08-12 16:59:17 发布

阅读量808

点赞数 25

文章标签： transformer 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43508459/article/details/141136327

版权

Abstract

提出了一个semantic graph Transformer （SGT），目标是将点云场景变成一个目标结构图。目前基于GCN的场景图生成模型面临两个问题：1. GCN固有困境之过渡平滑。2. 只能从有限的邻接节点传播信息。因此该模型采用Transformer-based的网络来获取全局信息。

具体来看，该模型包含了两个Transformer层：1. 提出了一个图嵌入层，来更好的利用图中边的信息。2. 提出了一个语义注入层，来利用文本标签和视觉对象知识。

Proposed Approach

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该模型分为两个模块Graph Embedding Layer（GEL）and Semantic Injection Layer（SIL）。

Node and Edge feature generation

输入是有instance label但没有category label的点，然后用pointnet进行特征提取，得到物体的特征。假设所有的物体之间都有边，因此边的特征由相连的两个物体的特征得到。

||表示拼接

Graph Embedding Layer

Multi-Head Edge-aware Self-Attention

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上图可以看出有三个输入但是只有两个输出，三个输入分别是边的特征，两个节点的特征。输出分别是节点i的特征和新一轮的边的特征，其中使用 $V_i$ 作为query，使用 $V_j$ 作为key和value，然后获得edge-aware self-attetnion maps $M_{ij}^{l,h}\in R^{d_h}$ ：

其中 $h$ 表示head， $l$ 表示第 $l$ 层， $O$ 都表示线性层的矩阵。为了保持数值稳定性，在 softmax 内部对项取指数后的输出将被限制在 [-5,5] 的范围内。之后，输出 $ \hat{V}{i}^{l+1}$ 和 $\hat{E}{ij}^{l+1} $\分别被传递到前馈网络（FFN）中，该网络前后都连接有残差连接和标准化层。

Semantic Injection Layer

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里首先通过ChatGPT获取到场景中的文本描述，再通过CLIP模型对其进行文本特征的提取，然后将CLIP提取到的文本特征通过cross-attention机制将其与视觉特征融合起来。

Cross attention

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

损失函数

focal loss 用于物体和关系的分类

通过语义处理层来获取语义相似度损失

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。