24-AAAI-3D-STMN Dependency-Driven Superpoint-Text Matching Network for end-to-end 3D 核心笔记

最新推荐文章于 2024-11-06 23:06:53 发布

健身的程序猿

最新推荐文章于 2024-11-06 23:06:53 发布

阅读量694

点赞数 16

文章标签：笔记

本文链接：https://blog.csdn.net/weixin_43508459/article/details/141136154

版权

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

DDI

依赖驱动交互（DDI）模块，实现了令牌级别的交互。该模块利用依赖语法树的先验信息来引导文本信息的流动。通过这种结构，进一步增强了网络架构中不同实例之间关系的推理能力，从而显著提升了模型的分割能力。

Superpoint-Text Matching

提取特征后，我们对点云 $P$ 进行过分割，以获得 $N_s$ 个超点 ${K_i\}_{i=1}^{N_s}$ 。为了获得超点级特征 $\in \mathbb{R}^{N_s \times C_p}$ ，我们将点级特征 $P^{'}$ 直接输入基于 ${K_i\}_{i=1}^{N_s}$ 的超点池化层，可以表示为：

其中 $S_i$ 表示第 $i$ 个超点的特征， $K_i$ 表示包含在第 $i$ 个超点中的点的索引集，Avg 表示平均池化操作。

对于文本部分，我们将包含词级嵌入 $E_w$ 的表达式输入所提出的 DDI 模块中，该模块旨在构建描述依赖图并输出依赖驱动特征 $E_0$ ，其公式如下：

其中 $W_t \in \mathbb{R}^{C_t \times D}$ 是一个可学习的参数， $E_w \in \mathbb{R}^{N_w \times C_t}$ ， $E_1 \in \mathbb{R}^{(N_w + 1) \times D}$ ， $E_{root}$ 表示随机初始化的 ROOT 节点特征，$| $ 表示拼接操作。关于 DDI 模块的更多细节见第 3.3 节。

为了提高后续处理的效率，我们在线性投影后对 $S$ 采用了一种过滤方法，这在多模态分割任务中被广泛使用。具体来说，我们基于超点与其对应描述之间的相关性得分 $s_r$ 获取了 $k_{rel}$ 个超点。过滤过程可以表示为：

其中 $W_s \in \mathbb{R}^{C_p \times D}$ ， $Q_s \in \mathbb{R}^{D \times D}$ ， $K_t \in \mathbb{R}^{C_t \times D}$ 表示可学习的参数。AvgPool( $\hat{S}$ ) 作为全局特征， $\|$ 表示拼接操作。 $\hat{S}_{rel} \in \mathbb{R}^{(k_{rel} + 1) \times D}$ 表示与描述相关的超点特征。

Superpoint-Text Matching Process

为了执行超点-文本匹配，我们首先将超点特征 $S$ 投影到与文本嵌入 $E$ 相对应的 $D$ 维子空间。在经过描述引导的超点采样后，我们使用具有自适应注意力权重的超点-词聚合（SWA）来更新每个文本标记的嵌入。我们将其设计为一个多轮精细化过程，具体描述如下：

其中 $\hat{E}^\ell, \hat{E}^{\ell+1} \in \mathbb{R}^{(N_w + 1) \times D}$ ， $L$ 是多轮次的轮数。关于 SWA 的细节将在以下小节中介绍。

接下来，我们对 $\hat{S}$ 和 $\hat{E}$ 执行矩阵乘法，以获得捕捉所有超点与词标记之间的关系响应图。这个计算过程可以描述为：

其中 $\hat{S}^T \in \mathbb{R}^{D \times N_s}$ 是 $\hat{S}$ 的转置， $M^{\ell+1} \in \mathbb{R}^{(N_w + 1) \times N_s}$ 是响应图， $\sigma(\cdot)$ 表示 sigmoid 函数。特别地， $M_n^{\ell+1} \in \mathbb{R}^{N_s}$ 是第 $n$ 个标记的响应图，根据这个响应图我们可以生成分割结果和对应于第 $n$ 个标记的注意力掩码 $A_n^{\ell+1} \in \mathbb{R}^{N_s}$ 。

为了获得最终的掩码，我们选择与所有描述相关的超点具有最高相关性得分的词标记对应的响应图 $M^{\ell+1} \in \mathbb{R}^{N_s}$ ：

其中 ArgMax(·) 返回对应于最大值的索引。 $Q_t^{\ell+1}, K_s^{\ell+1} \in \mathbb{R}^{D \times D}$ 是可学习的参数。 $A_{ij}^{v,\ell}$ 表示第 $i$ 个词和第 $j$ 个描述相关超点之间的注意力得分， $s_i^v$ 表示第 $i$ 个词的视觉相关性得分（表示第i个词能否体现在场景中的超点，有些词不会体现，比如of at、in front之类的，而有些得分高，比如chair、desk之类）。

Superpoint-Word Aggregation（SWA）

为了增强文本分割核的区分能力，我们引入了一个超点-词聚合（SWA）模块，该模块旨在优化超点与文本描述之间多轮次的模态交互。在第 $\ell$ 层，SWA 自适应地聚合超点特征，使每个词能够吸收相关超点特征的视觉信息。

如图2所示，自适应超点-词交叉注意力模块利用依赖驱动特征 $E$ 通过融合信息来优化词特征。

其中 $\hat{E}^{\ell+1} \in \mathbb{R}^{(N_w + 1) \times D}$ 是超点-词交叉注意力的输出。 $Q^{\ell+1}, K^{\ell+1}, V^{\ell+1} \in \mathbb{R}^{D \times D}$ 是可学习的参数。 $A^{\ell} \in \mathbb{R}^{(N_w + 1) \times (k_{rel} + 1)}$ 是超点注意力掩码。

给定来自预测头的预测超点掩码 $M^{\ell}$ ，超点注意力掩码 $A^{\ell}$ 用阈值 $\tau$ 来过滤超点，其公式如下：

$A_{ij}^{\ell}$ 表示第 $i$ 个词标记关注第 $j$ 个超点，其中 $M_{ij}^{\ell}$ 高于阈值 $\tau$ 。根据经验，我们将 $\tau$ 设置为 0.5。通过堆叠 transformer 解码器层，超点注意力掩码 $A^{\ell}$ 自适应地在目标实例内约束交叉注意力。

Dependency-Driven Interaction

为了明确地解耦文本描述并有效捕捉词语之间的依赖关系，我们提出了依赖驱动交互（DDI）模块。

Description-Dependency Graph

给定一个由 $N_t$ 个句子和总共 $N_w$ 个词组成的目标对象的自由形式纯文本描述，我们首先使用 Stanford CoreNLP [27] 工具包来获取 $N_t$ 个依赖树。然后通过合并它们的 ROOT 节点，将这 $N_t$ 个依赖树合并成一个图，如图2所示。因此，对于每个描述，依赖图有 $N_w + 1$ 个节点 ${u\}$ 和 $N_w$ 条边 ${e\}$ 。每个节点代表一个词，包括特殊标记“ROOT”，每条边代表一种依赖关系类型。

Graph Transformer Layer with edge features

受[9]的启发，我们采用了带有边特征的图转换层，以更有效地利用描述依赖图中丰富的特征信息，这些信息以边属性的形式存储，包括依赖关系。给定文本特征 $\hat{E}_0 = \{ \hat{E}_{0}^0, \hat{E}_{1}^0, \cdots, \hat{E}_{N_w + 1}^0 \}$ ，我们直接根据对应的索引导出节点特征 $\hat{h}_i^0 = \{ \hat{h}_0^0, \hat{h}_1^0, \cdots, \hat{h}_{N_w + 1}^0 \}$ 。对于边特征 $\{\beta_{ij}\}$ ，我们为每种依赖关系分配一个唯一的ID，并通过线性投影获得 $D$ 维的隐藏特征 $e_{ij}^0$ 。

其中 $B_0 \in \mathbb{R}^{1 \times D}$ 和 $b_0 \in \mathbb{R}^{D}$ 是线性投影层的参数。

现在，我们通过线性投影嵌入预先计算的 $k$ 维节点位置编码，并将其添加到节点特征 $\hat{h}_i^0$ 中。

其中 $C_0 \in \mathbb{R}^{D \times k}$ 和 $c_0 \in \mathbb{R}^{D}$ 。注意，拉普拉斯位置编码仅在输入层添加到节点特征中，而不是在中间的图转换层中。

接下来，我们定义第 $\ell$ 层的更新方程。

在这里插入图片描述

其中 $Q_h^\ell, K_h^\ell, V_h^\ell, E_e^\ell, O_h^\ell, O_e^\ell \in \mathbb{R}^{D \times D}$ 表示可学习的参数。

考虑到依赖图结构中缺乏长程连接，我们引入自注意力机制并将其与图注意力并行结合。输出 $\hat{h}_i^{\ell+1}$ 是通过 $\hat{h}_i^{\ell}$ 的自注意力输出相加，并通过残差连接和归一化层得到的最终输出 $\hat{h}_i^{\ell+1}$ 。然后 $\hat{h}_i^{\ell+1}$ 和 $\hat{e}_{ij}^{\ell+1}$ 被分别传递到前馈神经网络之前和之后的残差连接和归一化层，公式如下：

其中 $W_h1^\ell \in \mathbb{R}^{D \times D_h}$ , $W_h2^\ell \in \mathbb{R}^{D_h \times D}$ , $W_e1^\ell \in \mathbb{R}^{D \times 2D}$ , $W_e2^\ell \in \mathbb{R}^{2D \times D}$ 是可学习的参数， $\hat{h}_i^{\ell+1}$ , $h_i^{\ell+1}$ , $\hat{e}_{ij}^{\ell+1}$ , $e_{ij}^{\ell+1}$ 表示中间表示， $SA(h_i^\ell)$ 表示 $\hat{E}^\ell$ 的第 $i$ 个自注意力输出。

最后，第 $\ell$ 层 DDI 的文本输出通过 $\{h_i^{\ell+1}\}_{i=1}^{N_w + 1}$ 的拼接获得。

Training Objective

训练超点指代表达匹配网络是直接的：给定指代表达的真实二值掩码 $\in \mathbb{R}^{N_p}$ ，我们首先通过超点池化得到相应的超点掩码 $Y_s \in \mathbb{R}^{N_s}$ ，然后进行0.5阈值的二值化处理，接着在最终响应图 $M$ 上应用二元交叉熵（BCE）损失。该操作可以表示为：