CVPR 2022 A Unified Query-based Paradigm for Point Cloud Understanding

本文提出了一种用于3D理解任务的新型算法——E-Q(嵌入-查询),旨在替代传统的E-D(编码-解码)模型。E-Q算法包括嵌入阶段和查询阶段,其中Q-Net是查询阶段的核心,利用Transformer结构提取查询特征。Q-Net具备灵活性,能适应不同的任务和输入表征。通过选择不同的查询位置,E-Q算法可以应用于点云和体素输入的多种3D任务,如对象检测、分割和分类。
摘要由CSDN通过智能技术生成

论文链接:https://arxiv.org/abs/2203.01252

代码:即将开源

一、背景:

点云理解在自动驾驶、机器人、增强现实领域是重要组成部分。

对于点云理解,有两个主流输入表征:点和体素,为这两种表征设计对应的模型也被分为基于点和基于体素。两种模型中的SOTA基本上都是E-D样式的模型,即编码-解码样式:encoder网络逐步通过采样算法/步长卷积逐步降采样点云/体素,decoder网络将下采样的点特征传播到原始点,不同的任务头进行不同的预测。由于下采样-上采样设计,ED样式的模型为下采样过程中出现的一些固定位置提取特征。

二、方法

本文为3D理解任务提出了一种嵌入-查询样式的算法(E-Q)。这种算法可以在3D场景的任意位置生成特征,相当于包括了ED算法。EQ算法包括三个阶段:嵌入阶段,查询阶段,不同的检测头。

本文还查询阶段提出了一种新的网络:Q-Net,有效的提取中间表征,Q-表征(Q-representation)。

由于查询位置的灵活性,EQ算法可以轻易地与不同任务的SOTA骨干网结合。

例如,为基于体素的检测器[62,73]设计的SSD头[22]可以在EQ范式下与基于点的嵌入网络一起应用;EQ范式分割模型可以基于基于体素的嵌入网络直接获得逐点特征[7,16];此外,EQParadigm版本的PVRCNN[40]能够直接从基于体素的主干为以下检测头生成建议网格特征。这大大提高了模型设计对于不同任务的灵活性。

2.1 E-Q算法

2.1.1概览:

输入点I, 嵌入阶段产生支持特征FS和支持点S。查询阶段为不同任务、不同表征的查询位置Q生成查询特征FQ。最后是不同任务检测头

2.1.2 嵌入阶段

独立于任务检测头,可以是任何3D网络,包括以体素化输入及点云输入的网络。该阶段生成支持点S和支持特征FS。基于点的网络支持点通常是输入点云的子集,基于体素的网络通常是下采样的体素中心。

2.1.3 查询阶段

为手工设计的查询位置Q从支持集FS和支持点S中提取查询特征FQ,查询特征后续被送入检测头。

关键在于查询位置的选择。

(1)检测任务的查询位置

为了在户外3D对象检测模型中部署SSD(Second)头,选择查询位置作为目标鸟瞰图(BEV)地图内的像素中心(图2(a))。为了利用[33-votenet,41-pointrcnn,64-3dssd]中提出的基于点的头,查询位置是通过均匀或最远点采样从原始输入点云中获得的子采样点(图2(b))。

(2)分割任务的查询位置

3D场景中需要逐点类别预测的查询位置。通常是整个输入点I作为Q。

(3)分类任务的查询位置

Q可以是多个分不均匀的位置,指示一个对象的不同部分来投票类别。本文使用从对象中采样的16个点作为查询位置。

 查询阶段与嵌入网络类型无关,在查询位置选择方面有很大灵活性。

4.Q-Net

提出了一个新的查询网络,Q-Net,基于transformer结构来提取Q-表示:查询特征FQ。transformer有灵活的的感受野,强大的表征能力,带有位置编码的注意操作符既提供了全局视角,又考虑了点之间的相对位置,满足了灵活查询位置的特征生成需求。Q-Net是L个Q-Block的的堆叠。

4.1 Q-Block

每个Q-Block有四个输入元素,第l个block,四个输入元素为查询位置Q,支持点S,查询特征Fl-1Q,支持特征Fl-1S,查询特征和支持特征是l-1块的输出。第一个Q-Block,初始化FQ=0。FS由支持特征初始化。Q-Block迭代更新查询和支持特征。

每个Q-Block有两个层,Q-Encoder 和Q-Decoder 分别迭代更新支持特征,优化查询特征。最后一个Q-Block没有Encoder层。最后一个Q-Block输出最后查询特征FQ,送入后续检测头预测。

4.1.2 Q-Encoder层

我们使用Q-Encoder层来更新支持特征。Q-Encoder层的结构遵循transformer的Encoder层,它由两个主要组件组成:注意层(attention layer,注意)和前馈网络(feed-forward network,FFN)。Q-encoder层:

 注意力层是标准的qkv多头自注意力,qkv都来自于支持特征Fl-1S,使用层正则化。

4.1.3 Q-Decoder层

为查询位置产生增强特征表示。与 transformer-decoder层不同,在Q-decoder层,不对查询特征应用自注意力,而是直接采用交叉注意力层从支持特征生成查询特征。

注意力层是qkv多头交叉注意力,q来自查询特征,kv来自支持特征,查询位置的查询特征仅取决于支持点、特征之间的关系,不取决于与其他查询位置和特征的关系,在查询位置选择上有更灵活的特性。

4.1.4注意力层

目标位置 ,特征,源位置,特征,获得目标特征,基于qkv的注意层可以被视为在源特征FX上应用注意权重,以计算新的目标特征。

第i个新的目标特征计算:

注意力权重:

 4.1.5 相对位置编码

 仅根据查询点和支持点之间的坐标差来更新第一个块中的查询特征并不是最优的,因为对于具有相同相对位置但具有不同比例和形状的对象点,它在注意权重上没有差异。采用了上下文相对位置编码,上下文相对位置编码考虑了位置嵌入与q、k、v特征的相互作用,使相对位置编码自动适应具有不同上下文信息的特征。

 4.1.6 局部注意

 对于每个目标点,根据欧式距离在源点中绘制出其K个最近邻(KNN),然后只计算对这些邻居的注意。这样,注意权重A的大小大大减小到m×K,因为K远小于n。

4.2 分层Q-Net

分层Q网络来利用多层次特征。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值