【论文阅读分享】LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion

阿威科研分享

已于 2024-08-31 17:23:55 修改

阅读量1k

点赞数 16

文章标签：目标检测论文阅读人工智能

于 2024-08-29 14:06:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56014475/article/details/141645657

版权

LoGoNet:

原理图：

整体思路：

LoGoNet由 GoF、LoF 和 FDA 模块组成。LoF 提供精细的区域级信息来补充 GoF。FDA 实现了全局和局部融合特征之间的信息交互，从而产生了信息量更大的多模态特征。

全局融合（GoF）：获取全局特征，但缺乏细粒度的区域级信息。

局部融合（LoF）：首先将每个提案划分为均匀的网格，然后将这些网格中心投影到图像上。对投影网格点周围的图像特征进行采样，以便与位置修饰的点云特征融合，从而最大限度地利用围绕提案的丰富上下文信息。

特征动态聚合（FDA）：实现这些局部和全局融合特征之间的信息交互，从而产生信息量更大的多模态特征。

GoF理解

原理图：

1.点云体素化生成特征Fv，体素的质心为Ci。

2.将体素的质心投影到图像中作为参考点。转换方法如下：

3.在参考点周围找一组点进行加权融合生成聚合图像特征FIi。

4.自注意力机制选择图像中与点云的高相关性特征，随后与点云特征进行融合。

5.ROI池化，针对最开始提取的点云特征RPN后的边界框特征进行处理。

CDF：图像特征和体素特征的注意力融合。

LoF理解

原理图：

1.对于给定的边界框Bi划分体素，每个边界框假设有64个体素，64个质心。

2.经过PIE位置信息编码器，对每个体素的中心点zj进行编码，生成一个位置编码向量，再融合原始的特征向量。

3.每个质心映射到图像中，选择一组最近的点加权融合，最终输出图像特征。

4.注意力机制融合特征，最后生成局部特征。

GDF：通过边界框对局部信息进行处理，融合图像和点云特征。

FDA理解

原理图：

Fs虽然包含了不同来源的特征信息，但交互不充分，因此引入了自注意力机制，自适应的构建不同网格点特征之间的关系，增强信息交互。

最后进行包围框预测等。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。