点云语义分割论文阅读笔记(一)：Scene Context Based Semantic Segmentation for 3D LiDAR Data in Dynamic Scene

最新推荐文章于 2024-04-02 16:33:18 发布

修理费用250

最新推荐文章于 2024-04-02 16:33:18 发布

阅读量203

点赞数

分类专栏： 3D点云语义分割文章标签：深度学习自动驾驶神经网络

本文链接：https://blog.csdn.net/qq_43173635/article/details/119877414

版权

3D点云语义分割专栏收录该内容

1 篇文章 0 订阅

订阅专栏

摘要：

本文提出了一种基于图神经网络结合场景上下文的、用于3D激光雷达语义分割的方法。这个问题被定义为建立图表示中心分割与其邻居的拓扑关系，并推断中心分割的语义标签。图的节点是从距离图像的分割中生成的，适用于稠密和稀疏的点云。边的权重用于评估中心节点和邻居的相关性，由网络自动编码，因此邻居节点的数量就不再是一个敏感的参数。本系统由分割生成、图生成、边权重估计、节点更新和节点预测组成。动态场景数据集的定量评估表明该方法相比于unary CNN提升了8%，比常规的CNN提升了17%。
在这里插入图片描述

一、方法

A.问题定义

定义 $s$ 是3D激光雷达数据的一个分割，是通过在深度图像上执行区域增长算法得到的，该算法检测了深度图像中点的一致性。令 $\Omega$ 为 $s$ 的 $M$ 个最近邻集合。本文的工作是通过邻域 $\Omega$ 推断，将 $s$ 映射到一个标签 $\in \{1,...,K\}$ 。数学表示为：
$F_{\theta}:s|\Omega \rightarrow x \in \{1,...,K\}\tag{1}$
本文提出了一种基于GNN的分类器。给定一个中心分割 $s_i$ 及其邻域 $\Omega_i$ ，首先构建一个无向图 $G_i=\{V_i,E_i\}$ 表示拓扑关系，其中 $V_i=\{v_i\}$ 是每个分割的节点集合， $E_i=\{e_{ij}\}$ 表示连接中心节点 $v_i$ 和邻域节点 $v_j,j \in \Omega_j,j \ne i$ 的边的集合。
令 $H_i=\{h_i\}$ 和 $W_i=\{w_{ij}\}$ 是图 $G_i$ 中节点和边的状态。 $G_i$ 的状态被初始化为 $H_i^0=\{h_i^0\}$ 和 $W_i^0=\{w_{ij}^0\}$ ,由下式进行计算：
$\Theta(v_i) \rightarrow h_i^0 \tag{2}$
$g(\Theta(v_i),\Theta(v_j)) \rightarrow w_{ij}^0 \tag{3}$
在本文中， $h_j^0$ 是一个特征向量，通过一个特征提取过程 $\Theta(\cdot)$ 初始化。 $w_{ij}$ 示是一个比率/权重，用于描述节点 $v_i$ 和 $v_j$ 的关系强度，由操作 $g(\cdot)$ 计算。
节点和边经过 $T$ 次迭代后，更新为 $H_i^T$ 和 $W_i^T$ 。语义标签最终通过下式进行预测：
$f(h_i^T) \rightarrow \hat{x_i}\in \mathbb R^{1 \times K}\tag{4}$
其中 $\hat{x_i}$ 是 $s_i$ 的预测标签， $f(\cdot)$ 是预测操作。
令 $F_\theta$ 为上述基于GNN的分类器。给定监督样本集合 $X=\{s_i,\Omega_i,x_i\}_{i=1}^N$ ，其中 $x_i$ 是 $s_i$ 由人工标注的标签，学习 $F_\theta$ 可以表示为寻找最优的 $\theta^*$ ，使得损失函数 $L$ 最小
$\theta^*=\arg\limits_{\theta}minL(X;\theta)\tag{5}$

B.边权重估计

如果我们假设每一个节点 $v_i$ 是互相独立的，[3]已经验证这个假设对于正确分类是不可行的；相反，上下文信息可以增强节点的表示。因此，我们希望邻域节点的信息可以传递到目标节点。 $v_i$ 有多个邻域节点，显然每个邻居的重要性不尽相同。例如，行人对于移动目标如车辆或者骑行者应该有更多的注意力，对静止目标的注意力应该更小。[24]中设计了一种注意力机制感知上下文信息： $g_{\theta_e}:\mathbb R^s \times \mathbb R^s \rightarrow \mathbb R$ 。函数 $g_{\theta_e}$ 在图模型中是由所有的边共享的。两个相邻节点的关系定义如下：
$\tilde e_{ij}=g_{\theta_e}([h_i,h_j])\tag{6}$
其中 $h_i$ 和 $h_j$ 分别是几点 $v_i$ 和 $v_j$ 的隐状态，操作 $[\cdot]$ 表示向量的连接。 $g_{\theta_e}$ 可以由任何可微的函数实现，最简单是的线性模型，在本文中使用了多层感知器(MLP)。上式描述了节点 $v_j$ 到 $v_i$ 的重要性，反之亦然，因为图是无向图。显然，我们不需要向建立边特征那样对边进行建模，而是利用节点对表示。式(6)使得每一个节点的信息可以流向其他节点，因此可以捕捉长距离的上下文信息。在实际中，我们只考虑 $v_i$ 有限数量的邻居，即上下文信息的范围由 $\Omega_i$ 调整。在此意义下，边的权重可以定义为
$w_{ij}=\frac{1}{|\Omega_i|}\frac{exp(\tilde e_{ij})}{\sum_{j \in \Omega_i}exp(\tilde e_{ij})}\tag{7}$
与卷积核的关系：标准的卷积操作也可以捕捉上下文信息，但是感受野较小，范围由卷积核的大小定义。公式(6)的优点在于感受野是不受限制的，可以修改邻域 $\Omega_i$ 的定义使得感受野范围向标准卷积核一样下，也可以扩展到整幅图。

C.节点更新

节点的 $v_i$ 的隐藏状态 $h_i$ 随迭代次数更新。 $h_i^t$ 表示节点 $v_i$ 在 $t$ 时刻的状态。初始状态 $h_i^0$ 由如图所示的ROI pooling的高维输出获得。节点更新分为两个步骤：首先收集邻域信息，然后更新节点状态。
$m_i^t=\frac{1}{|\Omega_i|}\sum\limits_{j \in \Omega_i}\phi_{\theta_n}(w_{ij}h_j^t)\tag{8}$
公式(8)中，函数 $\phi_{\theta_n}$ 将邻域节点在 $t$ 时刻的信息映射到向量 $m_i^t$ 中，变量 $w_{ij}$ 决定了不同节点的贡献度。在本文中， $\phi_{\theta_n}$ 由MLP实现。
计算 $m_i^t$ 后， $\psi_{\theta_m}$ 以当前节点状态 $h_i^t$ 和上下文信息 $m_i^t$ 作为输入，计算 $t + 1$ 时刻的状态
$h_i^{t+1}=Relu(\psi_{\theta_m}([h_i^t,m_i^t])), t \in [0,T]\tag{9}$
其中， $\phi_{\theta_n}$ 和 $\psi_{\theta_m}$ 是所有节点共享的。迭代次数 $T$ 是一个人工设计的超参数。它同样可以决定上下文的感知范围。例如，增加 $T$ 将会使得更远距离的信息可以传播到目标节点。

D.节点预测

在公式(9)更新 $T$ 次后，开始预测每个节点的语义标签。对于节点 $v_i$ ，其预测 $\hat x_i$ 由下式计算
$\hat x_i=softmax(f_{\theta_v}(h_i^T)),\hat x_i \in \mathbb R^{1 \times K}\tag{10}$
最终的节点状态 $h_i^T$ 包含了自身状态和邻居的信息。 $f_{\theta_v}$ 也是由MLP实现，并且由所有节点共享。

E.损失函数

交叉熵损失函数是语义分割任务中最常用的。对于节点 $v_i$ ，如果只考虑其交叉熵，不能保证 $w_{ij}$ 的收敛性。此外，中心节点的损失与邻居节点的损失应该同时包括进去，即
$L=L_{center}+L_{neighbor}\tag{11}$
具体地，节点 $v_i$ 对应的 $L_i$ 定义如下：
$L_i=-(x_iln(\hat x_i^T)+\frac{1}{{|\Omega_i|}}\sum_{j \in \Omega_i}(w_{ij}x_jln(\hat x_j^T)))\tag{12}$
其中， $x_i$ 是one-hot向量，作为节点 $v_i$ 的标签。等式分为两部分：第一项是中心损失，第二项为邻域损失。邻域损失的作用是当拥有较高边权重的邻居节点被错误估计的时候增大损失。因此，最终的损失函数为
$\begin{aligned} L(X;\theta)&=\frac{1}{N}\sum_{i=1}^NL_i\\ &=-\frac{1}{N}\sum_{i=1}^N (x_iln(\hat x_i^T)+\frac{1}{|\Omega_i|}\sum_{j \in \Omega_i}(w_{ij}x_jln(\hat x_j^T)))\tag{13} \end{aligned}$

修理费用250

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
点云语义分割论文阅读笔记(一)：Scene Context Based Semantic Segmentation for 3D LiDAR Data in Dynamic Scene

摘要：本文提出了一种基于图神经网络结合场景上下文的、用于3D激光雷达语义分割的方法。这个问题被定义为建立图表示中心分割与其邻居的拓扑关系，并推断中心分割的语义标签。图的节点是从距离图像的分割中生成的，适用于稠密和稀疏的点云。边的权重用于评估中心节点和邻居的相关性，由网络自动编码，因此邻居节点的数量就不再是一个敏感的参数。本系统由分割生成、图生成、边权重估计、节点更新和节点预测组成。动态场景数据集的定量评估表明该方法相比于unary CNN提升了8%，比常规的CNN提升了17%。一、...
复制链接

扫一扫