《论文阅读》MLCVNet: Multi-Level Context VoteNet for 3D Object Detection

留个笔记自用

MLCVNet: Multi-Level Context VoteNet for 3D Object Detection

做什么

3D object detection。3维目标检测
在这里插入图片描述
对于输入的3D点云,像2D一样使用一个bounding box去将相应的物体包围起来,不过这里使用的bounding box也同样变成了3维的

做了什么

在这里插入图片描述
简单来说,对votenet进行一个改进
在这里插入图片描述
在每个点做中心点的vote之前,加了几个上下文模块来学习场景的上下文关联信息,显然这样有助于检测时的语义理解,这里选用的上下文信息结构是patch补丁、object对象和global scene全局场景级别

怎么做

在这里插入图片描述
整体结构分为四个部分,第一部分是特征提取部分,第二部分是上下文模块部分,第三部分是抑制部分。现在这里主要的是第二部分,这里还有3个模块,对应着前面说的三个场景解蔽, PPC Module对应patch,OOC Module对应object,GSC Module对应global scene、
首先自然是backbone部分,特征提取这里采用的是Pointnet++,输入是N个点3个特征的点云,输出是N个点1024个特征的feature
在这里插入图片描述
然后是第二部分,首先是第一个模块PPC模块,这里的解释是patch之间可以通过相似性来减缓数据丢失的问题,其实也就是根据周围的patch来增添当前patch的信息
在这里插入图片描述
这里的意思就像是attention那样,在vote之前先用周围的patch对当前patch的attention进行聚合改变
在这里插入图片描述
其中,θ(·), φ(·), g(·) 是三个不同的转换函数,后面CGNL里有展示,这里的A是上面N×1024的feature map。f(·)是相似度计算,建模方式采用的是一篇《Compact generalized non-local network》(CGNL大致模型↓)
在这里插入图片描述
也是整篇文章attention的核心
在这里插入图片描述
然后是第二个模块,应用于object的OOC模块,Votenet是将点云集群各自输入到一个分类层得到对象类和边界框,这里增加了一个上下文对象,也就是对象可以从相关对象中获得加权信息,也就是分类对象不光受自己特征,还受和其他对象之间的关系影响
在这里插入图片描述
这里的输入是前面vote出来的K簇,仍然还是经过一个MLP,然后max pool以形成表示簇的单个向量也就是簇特征,然后是一个和上面一样的self-attention模块,这里的模块仍然用的是CGNL
在这里插入图片描述
这里的vi值得是第i个vote簇中心。
在这里插入图片描述
然后是第三个模块,应用于全局场景理解的GSC模块例如,当整个场景是餐厅而不是浴室时,很有可能识别出椅子而不是厕所,也就是对象类不仅仅是局部语义,而且还跟全局语义挂钩
在这里插入图片描述
在这里插入图片描述
这里图上标注的很清晰了,P是Point patch也就是PPC结果,C是object也就是OOC结果,这里是结合了前面两个的
在这里插入图片描述
然后就是最后一个部分,是一个很普通的收尾部分了
在这里插入图片描述
得到K簇建议后,NMS得到对应对象框

总结

1.很常见的上下文相关的做法,结合了patch、object、global

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值