论文阅读Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

Point transformer v2。

香港大学2022

在PCT的基础上进一步改进的点云处理方法,通过分组向量注意力(Grouped Vector Attention)和基于划分的池化机制,提高了对点云特征的提取和聚合能力,并在轻量级上有了新的突破。

总体来看:

1.点云网格化:将点云划分成大小相等的小块,对每个小块进行独立处理。为了保证小块的相对位置信息,每个小块的坐标需要经过中心化(Centering)和标准化处理。

2.点云特征提取:对每个小块的特征进行提取。这个步骤主要使用分组向量注意力机制。相比于传统的向量注意力,分组向量注意力将向量拆分成多个小块,然后对每个小块进行独立计算,从而降低了计算复杂度。

2.点云特征提取:对每个小块的特征进行提取。这个步骤主要使用分组向量注意力机制。相比于传统的向量注意力,分组向量注意力将向量拆分成多个小块,然后对每个小块进行独立计算,从而降低了计算复杂度。

3.点云特征聚合:将每个小块的特征聚合为整体特征。这个步骤主要使用基于划分的池化机制。相比于传统的最大池化或平均池化,基于划分的池化将小块划分成多个子块,然后对每个子块进行独立计算,最后将它们组合起来得到整个小块的特征表达。

4.点云解码:对整个点云的特征进行解码,得到点云的分类或分割结果。

Grouped Vector Attention

较大的模型会影响泛化能力以及模型效率,为了克服向量注意力的局限性,引入分组向量注意力

常见的注意力机制做法:

其中输入channel与输出channel保持一致,通过q和k做relationship生成权重矩阵在value上进行逐步逐点查询。其计算量大在于逐步查询带来的大量计算。

这里做法:

输入channel通过注意力分组输出变为C的channel,每组共享同一个注意力一次来减少计算量。

其中的分组结构:

常见做法将q与k获取的权重矩阵分别对每个点进行计算查询,这里通过分组共享权重减少了计算量。

新编码机制,Position Encoding Multipler

原先编码往往是通过q和k做relationship之后加上点之间的偏置

这里做法:

通过乘以δmul每个点之间相减值与获取的权重矩阵相乘,同时加上偏置。(我只能理解就是增加了模型微调的幅度,可以更好自适应数据)

Partition-based Pooling

原先的球查询聚类方式往往带来大量的计算量,但是尤其是点云背景点较多的时候效果不会特别有效还带来了大量无用计算。

这里直接通过分区进行平均池化的操作获取最远距离采样之后的关键点周围的特征减少计算量。上采样是直接将改点按照位置拼接回去。

experience

在scannetv2和s3dis上都有明显进步,同时轻量级也非常高。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值