点云检测之Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

Point Transformer V2是港大、因特尔实验室和马克斯·普朗克研究所在2022年发表在NeurIPS的一篇论文
论文地址 : Point Transformer V2


前言

  在2021年发表了一篇名为Point Transformer的论文,在这篇论文中,分析了 Point Transformer 的局限性,并提出了强大而高效的 Point Transformer V2 模型。


一、Grouped Vector Attention

  在向量注意力中,随着网络的深入和特征通道的增加,权重编码层的参数会急剧增加,会限制模型的效率和泛化能力。具体来说在标量注意力中,矩阵Value中每一个向量的所有通道的权重值是相同的,在向量注意力中,矩阵Value中每一个向量的所有通道的权重值是不同的,这样就导致了参数的增加。标量注意力的方法虽然参数少,但是可能无法获得向量中通道之间的关系,向量注意力的方法却可以关注到向量中通道之间的关系,调整每个通道的权重,但随之而来的问题就是参数数量的大量增加。

Attention groups

  为了避免上述问题,作者采用了分组的方法,将Value矩阵中每个向量的通道均匀的分成 g 组(1 ≤ g ≤ c),并且在每组内共享同一个权重参数,用于解决模型性能和参数数量的问题。这样不仅减少了参数数量,提高了模型的效率而且也保留着向量注意力的长处。
在这里插入图片描述
  其中 γ 是关系函数,ω是可学习分组权重编码,并且需要将 γ(qi, kj) 的维度从 c 转换为 g ,也就是对应分组的个数。第二个式子中Wi代表权重向量,经过Softmax后获得权重参数,j为参考集中某个点,l为向量中通道的组数,lc/g+m 为Vj中具体哪一个通道。
在这里插入图片描述
  第一个图中对应着向量注意力,对于V中向量的每一个通道都需要预测一个权重参数。第二个图对应着分组向量注意力,输入还为原始的通道数,预测的权重参数减少了,但是每一个权重参数对应V中向量多个通道。

GVA is a generalized formulation of VA and MSA

  针对于上述分组情况,当分组数量等于原始向量通道数时,即 g=c,此时为原始的向量注意力。如果将分组向量注意力转化为多头注意力,需将ω设定为:
在这里插入图片描述
   r 是经过γ(qi, kj)运算后得到的向量,其维度为R1×c,其中 c 代表通道数。后面矩阵为g X g矩阵,矩阵中每个元素为1 X Cg的向量,其中g = c/g,因此 r 向量中每个长度为Cg的子向量用来计算一个注意力权重,对应Figure 2中第三个图。

Grouped linear

  同MSA类似,但是注意力权重求解方法由标量乘积更改为通过MLP进行参数学习。又区别于GVA-Linear,输入只在对应的组内而不是关注所有的通道。对应Figure 2中第四个图。数学公式为:
在这里插入图片描述
  p1, . . . , pg为可学习权重,◦ 表示函数组合。

二、Position Encoding Multipler

  在原始的公式中,通过计算两个点之间的位置偏置,并加到关系函数得到的结果中。
在这里插入图片描述
  本文中通过δmul(pi − pj) l与关系函数得到的结果进行哈达玛积,再添加两个点之间的位置偏置。
在这里插入图片描述
  通过δmul(pi − pj) 来加强位置编码,其重点是学习复杂的点云位置关系。

we strengthen the position encoding with an additional multiplier δmul(pi − pj) to the relation vector, which focuses on learning complex point cloud positional relations.

在这里插入图片描述

三、Partition-based Pooling

  传统的方法依赖于采样和查询方法的结合。在采样阶段,使用最远点采样(Farthest Point Sampling, FPS)或网格采样(Grid Sampling)来为后续编码阶段保留采样点。对于每个采样点,执行邻域查询以从邻近点聚合信息。在这些基于采样的池化过程中,查询点集在空间上是不对称的,因为每个查询集之间的信息密度和重叠是不可控的。为此,作者提出基于分区的池化方法。
在这里插入图片描述

Pooling

  原始的下采样方法如上图上半部分所示,在原始点中进行下采样选择保留的采样点,将采样点周围的信息进行聚合。
  作者则将整个空间划分为相同大小且不重叠的区域,对每个区域内点的信息进行MaxPooling,采样点的坐标为区域内所有点的平均坐标。如上图下半部分所示。
在这里插入图片描述

Unpooling

  原始的上采样采用插值的方法。作者采用将记录原始点的坐标,在上采样的过程中恢复原始的点,对应的特征为采样点的特征。
在这里插入图片描述
  下文消融实验中所提及的划分网格(Shifted-Grid)和邻居采样(Neighborhood)的方式是针对于局部注意力机制,并不是针对Pooling。

四、Network Architecture

  其余网络的整体结构和Point Transformer基本相同。


总结

  这篇论文在Point Transformer基础之上进行了优化,提出了Grouped Vector Attention、Position Encoding Multipler和Partition-based Pooling。
  本文中注意力机制只采用了局部注意力,是否可以考虑引入全局信息,以更好地捕捉点云数据中的局部结构和全局关系。虽然全局注意力计算量很大,是否可以找到一种折中的方法,类似于提出的分组向量注意力。

  本文是自己对论文的理解,如有不同见解,欢迎讨论、指正。

  • 19
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测。 HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值