《论文阅读》A Hierarchical Graph Network for 3D Object Detection on Point Clouds

留个笔记自用

A Hierarchical Graph Network for 3D Object Detection on Point Clouds

做什么

3D object detection。3维目标检测
在这里插入图片描述
对于输入的3D点云,像2D一样使用一个bounding box去将相应的物体包围起来,不过这里使用的bounding box也同样变成了3维的

做了什么

在这里插入图片描述
这里提出了一种新的关注形状的局部形状特征,通过模拟点的相对几何位置来描述物体的形状。基于模拟退火遗传算法的U形网络捕获多级特征,通过改进的投票模块将其映射到一个相同的特征空间,然后进一步用于生成建议。接下来,一个新的基于GConv的建议推理模块考虑全局场景语义对建议进行推理,然后预测包围盒。
简单来说这里主要做的就是结合了对象的形状特征信息

怎么做

在这里插入图片描述
整体结构分为三个部分,第一部分是Gunet部分,第二部分是Proposal Generator建议生成器部分,第三部分是Proposal Reasoning Module(ProRE)部分
整体结构流程是GUnet生成多级语义,这些语义由建议生成器聚合生成建议。最后,ProRe模块通过利用全局场景语义来帮助预测边界框的建议
首先是第一部分,GUnet部分
在这里插入图片描述
很显然这里的结构跟feature pyramid network很相似,也是结合了多级语义的,除此之外这里提出了一种新的图卷积方式,这种方式更注重于点云对象的形状,它通过模拟点的几何位置来捕捉对象形状
定义该图卷积的输入是点云集合X∈Rn×(D+3),这里的D是特征维数,3是坐标数在这里插入图片描述
首先先是像图上展示的,先进行一个点的sample,由n个点sample至n‘个点,而采样点构建局部的方式是采用的KNN,构建完局部区域后,即对每个点xi都存在它的邻域xj(xj描述的是中心点邻域点的集合)为了对点的相对几何位置进行建模并自适应地聚集点特征,定义
在这里插入图片描述
这里的pi-pj表示邻域点j与中心点i的相对位移,g()是一个描述相对位置的函数,这里实现的方法就是一个简单的带sigmoid的卷积,f(x,x)是一个描述相对特征的函数,这里实现的方法是在这里插入图片描述
简单来说就是对x本身和x和j的相对特征搭建一个MLP
最后使用max pool将特征聚合得到最终的聚合点中心特征
在这里插入图片描述
这就是这里设置的关注于形状的图卷积,至于为什么关注于位置,它的说明是因为对中心点邻域点每个点的attention能包含对象的形状信息
然后是反卷积,反卷积由三个步骤组成,Padding,Feature Initialization,Feature aggregation
在这里插入图片描述
这里拿前面图中的U4和U3作例子
在这里插入图片描述
对U4作反卷积,第一步填充,也就是padding,这里采用的是直接使用D3中点的位置来对U3进行填充,因为理论上这两者应该在位置上是相似的,然后是填充点的特征初始化,用算术平均来初始化特征在这里插入图片描述
这里的fj(4)表示U4里第j个邻居的特征,k就是前面knn中的k,其实就是padding后点特征的均分。然后是最后一步特征聚合,这里聚合方法就是直接用的前面定义的SA-GConv
介绍完了这两个主要定义的卷积方法,接下来是就是这部分的主体GU-net
在这里插入图片描述
左部分构建了四层语义,都是先使用最远点采样(FPS)进行sample,然后使用knn获得sample点的局部区域,然后执行SA-GConv更新采样点特征,然后右边构建了三层语义层,使用的是反卷积的方法,中间还加了skip-connection(D4和U4的堆叠是使用了一个MLP,D3和U3和U2和D2是直接concat)这是Unet里常见的了
这样,网络就得到了注重形状的多层次语义特征
在这里插入图片描述
然后是网络的第二部分,Proposal Generator部分
在这里插入图片描述
显然这里就是将多层次语义特征聚合生成对象建议,投票过程由下面定义
在这里插入图片描述
这里的f∈RF代表点特征,p∈R3代表点坐标,fv∈RFv代表投票点特征,pv∈R3代表投票点坐标,这里使用SA-GConv可以理解为计算几何位移也就是中心点投票。
然后使用FPS将所有vote聚合,类似于votenet那样保留Np个vote点,多层次的特征被充分融合以预测包围盒和类别
然后是最后一个模块 Proposal Reasoning Module
在这里插入图片描述
这个模块的意义是用全局的信息来更新对象建议,目的是为了解决一些局部难以解释的点(比如外表面较少点的情况)这里是定义了一个图在这里插入图片描述
v表示顶点集合,每个顶点是前面得到的一个对象建议,这里使用是它聚合的特征,然后是ε代表边集合,这里是直接用的全连接的方式
标注每个建议特征为Hp∈Rn×F,P∈Rn×n×3,其中在这里插入图片描述
也就是第i个建议和第j个建议的相对位置
在这里插入图片描述
这里的“+HP”的意思是一个残差操作,Ψ是由一个卷积组成的函数,Ψc是通道操作,Ψv是顶点操作,都是为了更新和合并建议的特征
简单来说这里的主要区别就是,得到建议后,ProRe这里考虑了建议之间的相对几何位置,然后基于全局信息又对建议特征进行了一次更新,然后剩下的什么3D NMS之类的就和votenet相似了
最后是训练网络的LOSS,这里针对feature pyramid构造了一个多层次的LOSS
在这里插入图片描述
这里的1()也是常见的了,判断一个点是否在一个物体的表面,Mm是第m层feature pyramid的对象总点数
其余的LOSS皆和votenet相同
在这里插入图片描述

总结

1.这里提出的一种形状关注的图卷积有点意思,虽然感觉就是个attention说的高大上了一点,感觉可以结合今年的另外一篇Convolution in the Cloud里的思想
2.FPN!yyds!

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值