使用Transformer提取连续帧点云的时空特征：P4Transformer算法理解

Demon_zzj

已于 2022-09-18 22:12:53 修改

阅读量2.4k

点赞数 6

分类专栏：深度学习点云处理文章标签： transformer 深度学习人工智能自动驾驶

于 2022-09-11 13:28:40 首次发布

本文链接：https://blog.csdn.net/qq_37497304/article/details/126804616

版权

深度学习同时被 2 个专栏收录

11 篇文章

订阅专栏

点云处理

2 篇文章

订阅专栏

本文介绍了Point4DTransformerNetworks（P4Transformer）用于点云视频时空建模的方法。通过Point4DConvolution融合相邻帧的局部特征，结合Transformer进行时空信息的自我注意学习。在3D动作识别和4D语义分割任务中，P4Transformer表现出色，尤其在处理点云序列数据时，能够有效地捕捉时空动态。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

整体上首先从点云序列中选定特定帧，通过 Point 4D Convolution 融合前后相邻帧的局部特征，提取该特定帧的时空局部特征，之后将时空局部特征和点的4D坐标concatenate在一起，作为Transformer的输入。Transformer中包含了m个Multi-head Self Attention (LayerNorm, RELUs, residual connections)。之后对于不同的任务，经过不同的网络头得到结果。

1. Point 4D Convolution

比如现在有 $t_1$ 到 $t_5$ ，5帧点云，每帧点云有 $N$ 个点。首先以 $s_t$ 为步长选取特定帧（上图 $t_2$ 和 $t_4$ ）。在这些特定帧点云上使用 Farthest Point Sampling (FPS) 采样出 $N_s$ 个点（如上图中点a, b, c, d ,e）。之后将这些采样的点转换到附近的 $r_t$ 个相邻帧上。之后，以每个转换得到的点为圆心， $r_s$ 为半径，选定一个局部区域。之后4D卷积就可以如下式计算得到：

在这里插入图片描述
其中
$\zeta(\delta_x,\delta_y,\delta_z,\delta_t)\cdot f = (W_d\cdot(\delta_x,\delta_y,\delta_z,\delta_t)^T)\odot(W_f\cdot f)$

$f=F^{x+\delta_x,y+\delta_y,z+\delta_z}_{t+\delta_t}$

G表示时空上的一个局部区域，由于时空的正交性，可以分成使用 $r_s$ 和 $r_t$ 表示的多个空间局部区域的序列（如图1中点云序列中多个圆形区域）。

理解：这里实际上就是在多个相邻帧上提取局部特征。如图2所示，对于中间这个特定帧的局部区域上的一个点 $p (x, y, z, t)$ ，为两个相邻帧中及本帧的局部区域的所有点计算到该点的位移向量 $(\delta_x,\delta_y,\delta_z,\delta_t)^T$ ，假设一共有k个点，就可以得到局部位移特征 $disp^{(x,y,z,t)}\in \mathbb{R}^{4\times k}$ 。这k个点的原始特征为 $f^{(x,y,z)}_t\in \mathbb{R}^{ C\times k}$ 。之后分别通过 $W_d$ 和 $W_f$ 对特征维度进行变换之后相加，就得到了 $F^{''(x,y,z)}_t \in \mathbb{R}^{C'\times k}$ ，之后sum pooling得到点 $p (x, y, z, t)$ 的时空局部特征 $F^{'(x,y,z)}_t\in \mathbb{R}^{ C'\times 1}$ ，如图2中的a、b、c、d、e、f。以上这个过程可以用矩阵运算表示：将disp和f通过concatenation得到特征矩阵 $f^{'(x,y,z)}_t\in \mathbb{R}^{ (4+C) \times k}$ 。则
$F^{''(x,y,z)}_t ={\left[ {\begin{array}{c} {{W_d}}&{{W_f}} \end{array}} \right]}{f'}$

其中 $W_d\in \mathbb{R}^{C'\times 4}$ ， $W_f\in \mathbb{R}^{C'\times C}$ 。

以上这个操作也可以如PSTNet中一样看成是由相对位置坐标来生成卷积核，因此论文中叫做4D卷积。

在这里插入图片描述

图2

2. Transformer

2.1 4D Coordinate and Local Feature Embedding

这一部分就类似于传统transformer中的Positional Encoding。通过Point 4D Convolution得到了多个帧的时空局部特征。对于点 $p^{(x,y,z,t)}$ ，提取到的时空局部特征为 $F^{'(x,y,z)}_t \in \mathbb{R}^{ C'\times 1}$ 。则encoding的过程可以由下式表达：
$I^{(x,y,z,t)}=W_i\cdot(x,y,z,t)^T+F^{'(x,y,z)}_t$
其中 $W_i \in \mathbb R^{C' \times 4}$ 。综合所有点， $\in \mathbb R^{C'\times L'N'}$ 就作为Transformer的输入。， $L^{'}$ 为选取的特定帧的数量， $N^{'}$ 为每帧采样的点数。

2.2 Self-Attention

这一部分与传统Transformer一样，通过输入 $\in \mathbb R^{C'\times L'N'}$ ，得到queries $Q$ 、keys $K$ 和 values $V$ 。
$Q=W_q \cdot I\\ K=W_k \cdot I\\ V=W_v \cdot I$
其中 $W_q \in \mathbb R^{C^k \times C'}$ , $W_k \in \mathbb R^{C^k \times C'}$ , $W_v \in \mathbb R^{C^v \times C'}$ 。
$attention(Q,K)=softmax(\frac{Q^T\cdot K}{\sqrt{(C^k)})}\\ O=V \cdot attention(Q,K)$
其中 $attention(Q,K)\in \mathbb R^{L'N'\times L'N'}$ ，表示L’N’个采样点的时空局部特征之间的相关性。 $O\in \mathbb R^{C^v\times L'N'}$ 。

为了增强Transformer的学习能力，使用 Multi-Head Self Attention。

3. 3D Action Recognition

如图1所示，在Transformer后使用max pooling将Transformer输出的局部特征融合成一个单独的全局特征。之后使用MLP将全局特征转换成为动作预测。

4. 4D Semantic Segmentation

语义分割需要的是 point-wise feature，Transformer的复杂度是 $O(n^2)$ ，因此对原始点云使用多个 point 4D convolution层来减少Transformer处理的点的数量。在Transformer之后，使用PointNet++里的feature propagation对点云特征进行插值。

插值方法（inverse distance weighted average）：对于插值点p $(x, y, z, t)$ ，找局部特征里距离点p最近的 $k$ 个点（文章里 $k = 3$ ），点p的特征就由这k个临近点特征加权线性组合。**每个点的权重为点p到该点的距离和点p到这k个点的距离之和的比。**因此于点p距离越近的点对点p的特征贡献度越大。以上过程由公式表达即为
$F^{''(x,y,z)}=\frac{\sum_{i=1}^{k}\omega(\delta_x,\delta_y,\delta_z)O^{(x+\delta_x,y+\delta_y,z+\delta_z,t)}}{\sum_{i=1}^k\omega(\delta_x,\delta_y,\delta_z)}$