点云检测之Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

Yeung銘

已于 2024-05-27 10:30:19 修改

阅读量1.2k

点赞数 19

分类专栏：论文阅读点云检测文章标签： transformer 深度学习人工智能

于 2024-05-26 16:03:26 首次发布

本文链接：https://blog.csdn.net/Blabala/article/details/139178364

版权

论文阅读同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

点云检测

7 篇文章 0 订阅

订阅专栏

Point Transformer V2是港大、因特尔实验室和马克斯·普朗克研究所在2022年发表在NeurIPS的一篇论文
论文地址： Point Transformer V2

前言

在2021年发表了一篇名为Point Transformer的论文，在这篇论文中，分析了 Point Transformer 的局限性，并提出了强大而高效的 Point Transformer V2 模型。

一、Grouped Vector Attention

在向量注意力中，随着网络的深入和特征通道的增加，权重编码层的参数会急剧增加，会限制模型的效率和泛化能力。具体来说在标量注意力中，矩阵Value中每一个向量的所有通道的权重值是相同的，在向量注意力中，矩阵Value中每一个向量的所有通道的权重值是不同的，这样就导致了参数的增加。标量注意力的方法虽然参数少，但是可能无法获得向量中通道之间的关系，向量注意力的方法却可以关注到向量中通道之间的关系，调整每个通道的权重，但随之而来的问题就是参数数量的大量增加。

Attention groups

为了避免上述问题，作者采用了分组的方法，将Value矩阵中每个向量的通道均匀的分成 g 组(1 ≤ g ≤ c)，并且在每组内共享同一个权重参数，用于解决模型性能和参数数量的问题。这样不仅减少了参数数量，提高了模型的效率而且也保留着向量注意力的长处。
在这里插入图片描述
其中 γ 是关系函数，ω是可学习分组权重编码，并且需要将 γ(qi, kj) 的维度从 c 转换为 g ，也就是对应分组的个数。第二个式子中Wi代表权重向量，经过Softmax后获得权重参数，j为参考集中某个点，l为向量中通道的组数，lc/g+m 为Vj中具体哪一个通道。
在这里插入图片描述
第一个图中对应着向量注意力，对于V中向量的每一个通道都需要预测一个权重参数。第二个图对应着分组向量注意力，输入还为原始的通道数，预测的权重参数减少了，但是每一个权重参数对应V中向量多个通道。

GVA is a generalized formulation of VA and MSA

针对于上述分组情况，当分组数量等于原始向量通道数时，即 g=c，此时为原始的向量注意力。如果将分组向量注意力转化为多头注意力，需将ω设定为：
在这里插入图片描述
r 是经过γ(qi, kj)运算后得到的向量，其维度为R1×c，其中 c 代表通道数。后面矩阵为g X g矩阵，矩阵中每个元素为1 X Cg的向量，其中g = c/g，因此 r 向量中每个长度为Cg的子向量用来计算一个注意力权重，对应Figure 2中第三个图。

Grouped linear

同MSA类似，但是注意力权重求解方法由标量乘积更改为通过MLP进行参数学习。又区别于GVA-Linear，输入只在对应的组内而不是关注所有的通道。对应Figure 2中第四个图。数学公式为：
在这里插入图片描述
p1, . . . , pg为可学习权重，◦ 表示函数组合。

二、Position Encoding Multipler

在原始的公式中，通过计算两个点之间的位置偏置，并加到关系函数得到的结果中。
在这里插入图片描述
本文中通过δmul(pi − pj) l与关系函数得到的结果进行哈达玛积，再添加两个点之间的位置偏置。

通过δmul(pi − pj) 来加强位置编码，其重点是学习复杂的点云位置关系。

we strengthen the position encoding with an additional multiplier δmul(pi − pj) to the relation vector, which focuses on learning complex point cloud positional relations.

在这里插入图片描述

三、Partition-based Pooling

传统的方法依赖于采样和查询方法的结合。在采样阶段，使用最远点采样（Farthest Point Sampling, FPS）或网格采样（Grid Sampling）来为后续编码阶段保留采样点。对于每个采样点，执行邻域查询以从邻近点聚合信息。在这些基于采样的池化过程中，查询点集在空间上是不对称的，因为每个查询集之间的信息密度和重叠是不可控的。为此，作者提出基于分区的池化方法。
在这里插入图片描述

Pooling

原始的下采样方法如上图上半部分所示，在原始点中进行下采样选择保留的采样点，将采样点周围的信息进行聚合。
作者则将整个空间划分为相同大小且不重叠的区域，对每个区域内点的信息进行MaxPooling，采样点的坐标为区域内所有点的平均坐标。如上图下半部分所示。
在这里插入图片描述

Unpooling

原始的上采样采用插值的方法。作者采用将记录原始点的坐标，在上采样的过程中恢复原始的点，对应的特征为采样点的特征。
在这里插入图片描述
下文消融实验中所提及的划分网格(Shifted-Grid)和邻居采样(Neighborhood)的方式是针对于局部注意力机制，并不是针对Pooling。

四、Network Architecture

其余网络的整体结构和Point Transformer基本相同。

总结

这篇论文在Point Transformer基础之上进行了优化，提出了Grouped Vector Attention、Position Encoding Multipler和Partition-based Pooling。
本文中注意力机制只采用了局部注意力，是否可以考虑引入全局信息，以更好地捕捉点云数据中的局部结构和全局关系。虽然全局注意力计算量很大，是否可以找到一种折中的方法，类似于提出的分组向量注意力。