输入:点云和图像bev特征(这个过程的输入是来自不同传感器的数据,例如激光雷达(LiDAR)和摄像头。这些数据首先会被转换成鸟瞰视图(BEV)特征)
输出:融合后的结果,加上检测任务头得到检测结果
步骤:
1.按通道维度级联点云和图像BEV特征,再通过卷积网络提取级联后的特征
a.将两种类型的BEV特征——点云和图像——沿着它们的通道维度进行连接。在深度学习中,通道通常指的是特征图的深度,即特征图的一个维度,这样操作可以保持两种特征的空间信息不变
b.通过卷积网络提取特征:级联后的特征会通过一个卷积网络,这个网络能够提取和学习这些级联特征中的更加抽象和有用的表示。卷积网络因其强大的特征提取能力而被广泛应用于计算机视觉任务中。
2.通过全局平均池化和卷积预测,实现对级联特征的自适应挑选。
a.全局平均池化和卷积预测:为了进一步处理这些特征,通常会应用全局平均池化来减少特征的空间维度,然后通过卷积预测来实现对级联特征的自适应挑选。这样可以使得网络更加关注那些对于后续任务如3D检测更为重要的特征区域。
b.最终输出的是融合后的特征,这些特征可以被用于各种下游任务,比如3D目标检测。这种融合策略充分利用了不同传感器的优势,提高了整体的感知精度,并且在某种传感器失效时,其他传感器可以作为冗余备份。
动态融合的模型设计:
将两种传感器生成的BEV特征首先通过通道连接起来,然后应用一个简单的通道注意力机制来强调重要的特征。这里用到的技术包括:
-
静态融合(fstatic):通过3×3卷积层将摄像头和激光雷达的特征进行空间和通道上的静态融合。
-
动态适应(fadaptive):引入了一个类似Squeeze-and-Excitation的注意力机制。这个机制通过对融合后的特征进行全局平均池化,然后应用线性变换和sigmoid函数,动态地调整每个通道的重要性。