LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion论文阅读分享

LoGoNet: 

原理图:

整体思路:

       LoGoNet由 GoF、LoF 和 FDA 模块组成。LoF 提供精细的区域级信息来补充 GoF。FDA 实现了全局和局部融合特征之间的信息交互,从而产生了信息量更大的多模态特征。

       全局融合(GoF):获取全局特征,但缺乏细粒度的区域级信息。

        局部融合(LoF):首先将每个提案划分为均匀的网格,然后将这些网格中心投影到图像上。对投影网格点周围的图像特征进行采样,以便与位置修饰的点云特征融合,从而最大限度地利用围绕提案的丰富上下文信息。

        特征动态聚合(FDA): 实现这些局部和全局融合特征之间的信息交互,从而产生信息量更大的多模态特征。

GoF理解

原理图:

1.点云体素化生成特征Fv,体素的质心为Ci。

2.将体素的质心投影到图像中作为参考点。转换方法如下:

3.在参考点周围找一组点进行加权融合生成聚合图像特征FIi。

4.自注意力机制选择图像中与点云的高相关性特征,随后与点云特征进行融合。

5.ROI池化,针对最开始提取的点云特征RPN后的边界框特征进行处理。

CDF:图像特征和体素特征的注意力融合。

LoF理解

原理图:

1.对于给定的边界框Bi划分体素,每个边界框假设有64个体素,64个质心。

2.经过PIE位置信息编码器,对每个体素的中心点zj进行编码,生成一个位置编码向量,再融合原始的特征向量。

3.每个质心映射到图像中,选择一组最近的点加权融合,最终输出图像特征。

4.注意力机制融合特征,最后生成局部特征。

GDF:通过边界框对局部信息进行处理,融合图像和点云特征。

FDA理解

原理图:

Fs虽然包含了不同来源的特征信息,但交互不充分,因此引入了自注意力机制,自适应的构建不同网格点特征之间的关系,增强信息交互。

最后进行包围框预测等。

  • 9
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值