《论文阅读》A Hierarchical Graph Network for 3D Object Detection on Point Clouds

最新推荐文章于 2023-05-11 19:28:44 发布

未知丶丶

最新推荐文章于 2023-05-11 19:28:44 发布

阅读量1.6k

点赞数 1

分类专栏：深度学习计算机视觉文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_43310834/article/details/109958332

版权

深度学习同时被 2 个专栏收录

107 篇文章 15 订阅

订阅专栏

计算机视觉

91 篇文章 11 订阅

订阅专栏

留个笔记自用

A Hierarchical Graph Network for 3D Object Detection on Point Clouds

做什么

3D object detection。3维目标检测
在这里插入图片描述
对于输入的3D点云，像2D一样使用一个bounding box去将相应的物体包围起来，不过这里使用的bounding box也同样变成了3维的

做了什么

在这里插入图片描述
这里提出了一种新的关注形状的局部形状特征，通过模拟点的相对几何位置来描述物体的形状。基于模拟退火遗传算法的U形网络捕获多级特征，通过改进的投票模块将其映射到一个相同的特征空间，然后进一步用于生成建议。接下来，一个新的基于GConv的建议推理模块考虑全局场景语义对建议进行推理，然后预测包围盒。
简单来说这里主要做的就是结合了对象的形状特征信息

怎么做

在这里插入图片描述
整体结构分为三个部分，第一部分是Gunet部分，第二部分是Proposal Generator建议生成器部分，第三部分是Proposal Reasoning Module（ProRE）部分
整体结构流程是GUnet生成多级语义，这些语义由建议生成器聚合生成建议。最后，ProRe模块通过利用全局场景语义来帮助预测边界框的建议
首先是第一部分，GUnet部分
在这里插入图片描述
很显然这里的结构跟feature pyramid network很相似，也是结合了多级语义的，除此之外这里提出了一种新的图卷积方式，这种方式更注重于点云对象的形状，它通过模拟点的几何位置来捕捉对象形状
定义该图卷积的输入是点云集合X∈R^n×（D+3），这里的D是特征维数，3是坐标数在这里插入图片描述
首先先是像图上展示的，先进行一个点的sample，由n个点sample至n‘个点，而采样点构建局部的方式是采用的KNN，构建完局部区域后，即对每个点x_i都存在它的邻域x_j（x_j描述的是中心点邻域点的集合）为了对点的相对几何位置进行建模并自适应地聚集点特征，定义
在这里插入图片描述
这里的p_i-p_j表示邻域点j与中心点i的相对位移，g（）是一个描述相对位置的函数，这里实现的方法就是一个简单的带sigmoid的卷积，f(x,x)是一个描述相对特征的函数，这里实现的方法是
简单来说就是对x本身和x和j的相对特征搭建一个MLP
最后使用max pool将特征聚合得到最终的聚合点中心特征
在这里插入图片描述
这就是这里设置的关注于形状的图卷积，至于为什么关注于位置，它的说明是因为对中心点邻域点每个点的attention能包含对象的形状信息
然后是反卷积，反卷积由三个步骤组成，Padding，Feature Initialization，Feature aggregation
在这里插入图片描述
这里拿前面图中的U4和U3作例子

对U4作反卷积，第一步填充，也就是padding，这里采用的是直接使用D3中点的位置来对U3进行填充，因为理论上这两者应该在位置上是相似的，然后是填充点的特征初始化，用算术平均来初始化特征在这里插入图片描述
这里的f_j⁽⁴⁾表示U4里第j个邻居的特征，k就是前面knn中的k，其实就是padding后点特征的均分。然后是最后一步特征聚合，这里聚合方法就是直接用的前面定义的SA-GConv
介绍完了这两个主要定义的卷积方法，接下来是就是这部分的主体GU-net
在这里插入图片描述
左部分构建了四层语义，都是先使用最远点采样（FPS）进行sample，然后使用knn获得sample点的局部区域，然后执行SA-GConv更新采样点特征，然后右边构建了三层语义层，使用的是反卷积的方法，中间还加了skip-connection（D4和U4的堆叠是使用了一个MLP，D3和U3和U2和D2是直接concat）这是Unet里常见的了
这样，网络就得到了注重形状的多层次语义特征
在这里插入图片描述
然后是网络的第二部分，Proposal Generator部分

显然这里就是将多层次语义特征聚合生成对象建议，投票过程由下面定义

这里的f∈R^F代表点特征，p∈R³代表点坐标，f_v∈R^F_v代表投票点特征，p_v∈R³代表投票点坐标，这里使用SA-GConv可以理解为计算几何位移也就是中心点投票。
然后使用FPS将所有vote聚合，类似于votenet那样保留N_p个vote点，多层次的特征被充分融合以预测包围盒和类别
然后是最后一个模块 Proposal Reasoning Module
在这里插入图片描述
这个模块的意义是用全局的信息来更新对象建议，目的是为了解决一些局部难以解释的点（比如外表面较少点的情况）这里是定义了一个图
v表示顶点集合，每个顶点是前面得到的一个对象建议，这里使用是它聚合的特征，然后是ε代表边集合，这里是直接用的全连接的方式
标注每个建议特征为H_p∈R^n×F，P∈R^n×n×3，其中在这里插入图片描述
也就是第i个建议和第j个建议的相对位置

这里的“+H_P”的意思是一个残差操作，Ψ是由一个卷积组成的函数，Ψ_c是通道操作，Ψ_v是顶点操作，都是为了更新和合并建议的特征
简单来说这里的主要区别就是，得到建议后，ProRe这里考虑了建议之间的相对几何位置，然后基于全局信息又对建议特征进行了一次更新，然后剩下的什么3D NMS之类的就和votenet相似了
最后是训练网络的LOSS，这里针对feature pyramid构造了一个多层次的LOSS
在这里插入图片描述
这里的1（）也是常见的了，判断一个点是否在一个物体的表面，M_m是第m层feature pyramid的对象总点数
其余的LOSS皆和votenet相同