《论文阅读》MLCVNet: Multi-Level Context VoteNet for 3D Object Detection

最新推荐文章于 2022-04-07 16:14:32 发布

未知丶丶

最新推荐文章于 2022-04-07 16:14:32 发布

阅读量1k

点赞数 1

分类专栏：深度学习计算机视觉文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_43310834/article/details/109600960

版权

深度学习同时被 2 个专栏收录

107 篇文章 14 订阅

订阅专栏

计算机视觉

91 篇文章 10 订阅

订阅专栏

留个笔记自用

MLCVNet: Multi-Level Context VoteNet for 3D Object Detection

做什么

3D object detection。3维目标检测
在这里插入图片描述
对于输入的3D点云，像2D一样使用一个bounding box去将相应的物体包围起来，不过这里使用的bounding box也同样变成了3维的

做了什么

在这里插入图片描述
简单来说，对votenet进行一个改进

在每个点做中心点的vote之前，加了几个上下文模块来学习场景的上下文关联信息，显然这样有助于检测时的语义理解，这里选用的上下文信息结构是patch补丁、object对象和global scene全局场景级别

怎么做

在这里插入图片描述
整体结构分为四个部分，第一部分是特征提取部分，第二部分是上下文模块部分，第三部分是抑制部分。现在这里主要的是第二部分，这里还有3个模块，对应着前面说的三个场景解蔽， PPC Module对应patch，OOC Module对应object，GSC Module对应global scene、
首先自然是backbone部分，特征提取这里采用的是Pointnet++，输入是N个点3个特征的点云，输出是N个点1024个特征的feature
在这里插入图片描述
然后是第二部分，首先是第一个模块PPC模块，这里的解释是patch之间可以通过相似性来减缓数据丢失的问题，其实也就是根据周围的patch来增添当前patch的信息

这里的意思就像是attention那样，在vote之前先用周围的patch对当前patch的attention进行聚合改变
在这里插入图片描述
其中，θ(·), φ(·), g(·) 是三个不同的转换函数，后面CGNL里有展示，这里的A是上面N×1024的feature map。f(·)是相似度计算，建模方式采用的是一篇《Compact generalized non-local network》（CGNL大致模型↓）

也是整篇文章attention的核心
在这里插入图片描述
然后是第二个模块，应用于object的OOC模块，Votenet是将点云集群各自输入到一个分类层得到对象类和边界框，这里增加了一个上下文对象，也就是对象可以从相关对象中获得加权信息，也就是分类对象不光受自己特征，还受和其他对象之间的关系影响
在这里插入图片描述
这里的输入是前面vote出来的K簇，仍然还是经过一个MLP，然后max pool以形成表示簇的单个向量也就是簇特征，然后是一个和上面一样的self-attention模块，这里的模块仍然用的是CGNL

这里的v_i值得是第i个vote簇中心。
在这里插入图片描述
然后是第三个模块，应用于全局场景理解的GSC模块例如，当整个场景是餐厅而不是浴室时，很有可能识别出椅子而不是厕所，也就是对象类不仅仅是局部语义，而且还跟全局语义挂钩

这里图上标注的很清晰了，P是Point patch也就是PPC结果，C是object也就是OOC结果，这里是结合了前面两个的
在这里插入图片描述
然后就是最后一个部分，是一个很普通的收尾部分了

得到K簇建议后，NMS得到对应对象框