CVPR2018 DGCNN、RSNet

最新推荐文章于 2022-06-27 22:11:52 发布

APolaris。

最新推荐文章于 2022-06-27 22:11:52 发布

阅读量1.1k

点赞数 2

分类专栏：语义分割

本文链接：https://blog.csdn.net/qq_37314249/article/details/104292022

版权

语义分割专栏收录该内容

13 篇文章 3 订阅

订阅专栏

文章目录

CVPR2018 DGCNN
CVPR2018 RSNet
- Architecture

DGCNN和RSNet与KCNet和PointwiseCNN一样，都着眼于对局部特征提取方面的工作。

CVPR2018 DGCNN

Dynamic Graph CNN for Learning on Point Clouds
（论文链接）（源码链接）
受到PointNet和graph CNN的启发，作者提出了EdgeConv和Dynamic Graph。
PointNet在提取点云局部特征时是逐点进行处理的，并没有考虑到点与点之间的关系，因此在局部特征的提取上有所欠缺，DGCNN是构建局部邻近图，然后在边上进行像卷积一样的操作。与graph CNN的不同之处在于，DGCNN每层的大小是在动态更新的，而不是固定的。

Edge Convolution

对于一个含有 $n$ 个点的点云 $X=\{\mathbf{x}_1,...\mathbf{x}_n\}\in\mathbb{R}^F,\mathbf{x}_i=(x_i,y_i,z_i)$ ，构建一个有向图 $\mathcal{G}=(\mathcal{V}, \mathcal{E})$ 来表示点云的局部结构，其中， $\mathcal{V}=\{1, \ldots, n\}$ ， $\mathcal{E} \subseteq \mathcal{V} \times \mathcal{V}$ 分别是顶点和边。最简单的方法是构建一个点云的k最近邻图，图上包含自环，每条边的特征定义为 $e_{i j}=h_{\Theta}\left(\mathrm{x}_{i}, \mathrm{x}_{j}\right),$ 其中 $h_{\Theta}: \mathbb{R}^{F} \times \mathbb{R}^{F} \rightarrow \mathbb{R}^{F^{\prime}}$ 是包含一组待学习参数 ${\Theta}的$ 非线性函数。最后用一个channelwise symmetric aggregation operation $\square$ 对每条边的特征进行操作，EdgeConv的输出可以表示为： $\mathbf{x}_{i}^{\prime}=\prod_{j:(i, j) \in \mathcal{E}} h_{\Theta}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)$
其中， $\mathbf{x}_{i}$ 是中心点， $\{\mathbf{x}_j:(i, j) \in \mathcal{E}\}$ 是相邻的一些点。如下图。
在这里插入图片描述
非线性函数 $h$ 和channelwise symmetric aggregation operation $\square$ 的选择可以有下列几种：

$x_{i m}^{\prime}=\sum_{j:(i, j) \in \mathcal{E}} \theta_{m} \cdot \mathbf{x}_{j}$ 当 $\mathbf{x}_1,...\mathbf{x}_n$ 表示规则网格上的图像像素时， $\mathcal{G}$ 可以表示像素点之间的连接情况，可以将 $\theta_{m} \cdot \mathbf{x}_{j}$ 作为 $h$ ，求和运算作为channelwise symmetric aggregation。上式中 $\mathbf{\Theta}=\left(\boldsymbol{\theta}_{1}, \ldots, \boldsymbol{\theta}_{M}\right)$ 为 $M$ 个不同filter的权值，每个 $\theta_{M}$ 的维度与 $\mathbf{x}$ 都是相同的， $\cdot$ 指欧几里得内积。
$h_{\Theta}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=h_{\Theta}\left(\mathbf{x}_{i}\right)$
这一种只对全局形体特征进行了提取，而没有考虑到点与点之间相邻的关系结构，在PointNet中用的就是这一种。
$h_{\Theta}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=h_{\Theta}\left(\mathbf{x}_{j}\right)，\\ x_{i m}^{\prime}=\sum_{j \in \mathcal{V}}\left(h_{\boldsymbol{\theta}\left(\mathrm{x}_{j}\right)}\right) g\left(u\left(\mathrm{x}_{i}, \mathrm{x}_{j}\right)\right)$
上式中， $\mathcal{g}$ 是高斯核， $u$ 计算的是点与点之间的欧氏距离。Atzmon et al.在[1]中使用过。
$h_{\Theta}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=h_{\Theta}\left(\mathbf{x}_{j}-\mathbf{x}_{i}\right)$
这一种只考虑了局部信息，而没有考虑全局信息。
$h_{\Theta}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\bar{h}_{\Theta}\left(\mathbf{x}_{i}, \mathbf{x}_{j}-\mathbf{x}_{i}\right)$
本文中使用的为上式，通过从 $\mathbf{x}_i$ 坐标中提取的全局信息和计算 $\mathbf{x}_j-\mathbf{x}_i$ 得到的局部信息相结合。具体的，本文用到的操作如下：
$e_{i j m}^{\prime}=\operatorname{ReLU}\left(\theta_{m} \cdot\left(\mathrm{x}_{j}-\mathrm{x}_{i}\right)+\phi_{m} \cdot \mathrm{x}_{i}\right),\\ x_{i m}^{\prime}=\max _{j:(i, j) \in \mathcal{E}} e_{i j m}^{\prime}$
其中， $\Theta=\left(\theta_{1}, \ldots, \theta_{M}, \phi_{1}, \ldots, \phi_{M}\right)$ 。
论文里写的比较复杂，根据代码EdgeConv具体的操作大概：
对于每个点 $x_i$ ，找到 $k$ 个最近邻点。 $k$ 个点按距离升序排列，得到 $x_{j_{i 1}}, x_{j_{i 2}}, \dots, x_{j_{i k}}$
依次计算出 $x_{j_{i 1}}-x_{i}, x_{j_{i 2}}-x_{i}, \ldots, x_{j_{i k}}-x_{i}$
每个边里面加入上一步计算得到的，得到 $\left(x_{i}, x_{j_{i 1}}-x_{i}\right),\left(x_{i}, x_{j_{i 2}}-x_{i}\right), \ldots,\left(x_{i}, x_{j_{i k}}-x_{i}\right)$
对于上面得到的每个特征用 $h_\theta$ 来更新。代码中使用的是卷积核为1x1的Conv2d
用max pooling，将以上k的特征整合为一个特征，作为 $x_i$ 的新特征。

Dynamic graph update

在每一层都有不同的图 $\mathcal{G}^{(l)}=\left(\mathcal{V}^{(l)}, \mathcal{E}^{(l)}\right)$ ，其中第 $l$ 层的边是由 $\left(i, j_{i 1}\right), \ldots,\left(i, j_{i k_{l}}\right)$ 组成的， $\mathbf{x}_{j_{i 1}}^{(l)}, \ldots, x_{j_{i k}}^{(l)}$ 是与 $x_i^{(i)}$ 相离最近的 $k_l$ 个点。也就是说，每一层图也都是不同的，DGCNN学习了如何构建每一层的图。
（大概就是由于 $\mathbf{x}_{j_{i k}}^{(l)}$ 在不断的变化，EdgeConv计算得到的特征也都在不断地变化，每一次计算都会得到新的特征，也就是整个图是在动态变化的）

Properties

Permutation Invariance 每一层使用的是对称函数max，因此对点的顺序不敏感。
Translation Invariance 对于变换 $T$ ：
$\begin{aligned} e_{i j m}^{\prime} &=\boldsymbol{\theta}_{m} \cdot\left(\mathbf{x}_{j}+T-\left(\mathbf{x}_{i}+T\right)\right)+\phi_{m} \cdot\left(\mathbf{x}_{i}+T\right) \\ &=\boldsymbol{\theta}_{m} \cdot\left(\mathbf{x}_{j}-\mathbf{x}_{i}\right)+\boldsymbol{\phi}_{m} \cdot\left(\mathbf{x}_{i}+T\right) \end{aligned}$
令 $\phi_m=0$ 则操作是完全置换不变的。

Architecture

在这里插入图片描述

Classification

4个EdgeConv Layer每层后面各接了一层全连接层，各层神经元个数分别为 $(64, 64, 128, 256)$ 【论文里写的是The four EdgeConv layers use three shared fully-connected layers(64,64,128,256).代码里也是这么写的，然而跟图上好像不太一样hhhhh。emmmmm】，根据每个EdgeConv层的特征重新计算图并用于下一个EdgeConv层，计算k近邻图时 $k = 20$ 。
将各个全连接层的输出concat到一起得到一个 $512$ 维的数据，使用一个全连接层（1024）来综合多尺度的特征（前4层Conv层的输出）
用max pooling和sum pooling来对上一层的输出进行处理，并concat到一起
然后通过两层全连接层（512，256）来处理全局特征（dropout=0.5）
每层都使用了LeakyReLU和batch normalization

Part Segmentation

在spatial transformer network后使用了3层EdgeConv Layer
使用一层全连接层来对此前的得到的特征进行处理，并参照pointnet的做法进行concat
然后将此前得到的特征concat到一起，然后使用3层全连接层（256，256，128）进行处理
ReLU、batch normalization、dropout的用法与classification一致

Indoor Scene Segmentation

与part segmentation的网络结构差不多，但是没有 categorical vector

[1] Matan Atzmon,Haggai Maron,and Yaron Lipman.2018. Point Convolutional Neural Networks by Extension Operators. ACM Trans. Graph.37,4,Article71(July2018), 12pages. https://doi.org/10.1145/3197517.3201301

CVPR2018 RSNet

（论文链接）（pytorch源码链接）
不同于此前的一些网络在处理无序点云时，主要是采用对称函数进行处理，而得到一个具有排列不变性的网络，RSNet则是采用slice pooling layer将无序的点云进行处理得到有序的特征，然后用RNN处理（RNN的输入是有序序列），再用slice unpooling layer将特征传递到每一个点。作者在论文中对复杂度进行了分析，确识还蛮高效的。

Architecture

对于点云输入数据 $X$ ，通过RSNet得到 $Y=\{y_1,y_2,...y_i,...y_n\},y_i\in L$ ，即每一个点 $x_i$ 得到一个相应的标签 $y_i$ 。
根据源码net.py的内容：

输入点云数据首先经过了1个卷积核大小为 $1\times9$ 的Conv2d和2个卷积核大小为 $1\times1$ 的Conv2d，每一层后面都有用relu和batch normalization，输出通道大小均为64
紧接着是根据 $x, y, z$ 三个方向进行切片的Slice pooling layer
得到的不同排序的切片集合通过6层双向RNN，输出通道大小分别为(64,512,256,128,128,256)
通过RNN得到的特征分别使用slice unpooling layer处理，并对三个分支的得到的特征进行加和
加和得到的数据通过三层卷积核大小为 $1\times1$ 的卷积层，输出通道大小为(512,256,13)，其中前两层的输出使用了relu，但没有使用batch normalization，最后一层之前使用了dropout。

Independent Feature Extraction

在RSNet中有两个特征提取模块，分别是输入特征模块和输出特征模块。输入特征模块对于输入 $X\in \mathbb{R}^{n\times d^{in}}$ 得到特征 $F^{in}\in \mathbb{R}^{n\times d^{in}}$ ，输出特征模块对于输入特征 $F^{su}\in \mathbb{R}^{n\times d^{su}}$ 得到每个点的预测标签。

Local Dependency Module

Slice Pooling Layer

Slice pooling layer的输入为无序的点云数据 $F^{in}=\{f_1^{in},f_2^{in}...f_n^{in}\}$ ，首先将点云数据分组到切片中，然后通过在切片中聚合点的特征来为每个切片生成全局表示。切片的方向有 $x, y, z$ 三个，以 $z$ 为例，具体的操做如下图(a)：
在这里插入图片描述
根据点云在 $z$ 维度分布的范围 $z_{min},z_{max}]$ 和超参数 $r$ 进行切片划分，点 $x_i$ 将被划分到第 $k$ 块，其中 $k=\lfloor \frac{z_i-z_{min}}{r}\rfloor$ ，总共将被划分为 $N=\lceil \frac{z_{max}-z_{min}}{r}\rceil$ 块，可以表示为 $S=\{S_1,S_2,...S_N\}$ ， $S_i$ 表示第 $i$ 个切片的点云集合，然后对每个切片中的数据进行如下操作，最终得到特征向量 $F^s=\{f^{s1},f^{s2},...f^{sN}\}$
$f^{s i}=\max _{x_{j} \in S_{i}}\left\{f_{j}^{i n}\right\}$
Slice Pooling Layer有如下特点：
Oeder and Structure $F^s$ 是一个有序且具有一定结构特征的序列， $f^{s1}$ 到 $f^{sN}$ 分别是点云从下到上的切片， $f^{si}$ 和 $s^{s(i-1)}$ 是相邻的特征。
Efﬁciency slice pooling layer的复杂度是 $O (n)$
Local context trade-off

RNN

RSNet中使用的是双向RNN units，RNNs得到的输出是 $F^r=\{f^{r1},f^{r2},...f^{rN}\}$

Slice Unpooling Layer

将一个slice中多个点的特征映射成了一个全局的特征向量，因此这里需要完成映射的逆过程，如上图(b)所示，每个点的特征由其所在slice的全局特征向量表示

一些实验结果：
在这里插入图片描述

APolaris。

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
CVPR2018 DGCNN、RSNet

文章目录CVPR2018 DGCNNEdge ConvolutionDynamic graph updatePropertiesArchitectureClassificationPart SegmentationIndoor Scene SegmentationCVPR2018 RSNetDGCNN和RSNet都是基于此前PointNet和PointNet++的工作提出的，与KCNet和Poi...
复制链接

扫一扫