SLBAF‑Net论文阅读

一、题目和作者
完整标题:SLBAF‑Net: Super‑Lightweight bimodal adaptive fusion
network for UAV detection in low recognition environment
作者:Xiaolong Cheng、Keke Geng、 Ziwei Wang、Jinhu Wang、Yuxiao Sun、 Pengbo Ding
以上作者均来自东南大学,南京。
二、摘要

  1. 指出问题

在这里插入图片描述
由于无人机在具有天空背景的遥感图像上光照变化强烈,且无人机体积极小,传统的目标检测算法通常缺乏令人满意的精度和鲁棒性。

  1. 本文贡献小结
    本文提出了一种基于可见光和红外图像自适应融合超轻量双峰网络SLBAF-Net,用于复杂光照和天气条件下的无人机检测。
    BAMF用于自适应融合可见光和红外特征图

三、介绍
1.
在这里插入图片描述
没有适合在低识别环境中检测无人机的检测算法,这对无人机技术的采用具有重大影响。因此,本文重点研究针对低识别噪声、复杂光照环境下的无人机检测任务的无人机检测技术。

  1. 基于视觉的无人机探测方法面临的主要挑战是可见光相机对噪声、恶劣天气、强烈光照变化等的高灵敏度。 SLBAF-net就是为了解决这些问题。
    SLBAF-net的输入是可见光图像和红外图像
  2. 论文工作的主要贡献:
    (1) 提出了SLBAF-Net应对低识别环境下的无人家检测问题
    (2)提出了双模态自适应融合模块(BAFM),更有效的融合可见光和红外特征
    (3)复杂的dual-UAV数据集的建立,数据集包含了夜间、过度曝光、干扰目标、遮挡复杂环境和正常环境。
    (4)在普通和复杂dual-UAV数据集上分别进行了大量实验来证明网络的优越性。

四、相关工作

  1. 经典检测器
    两阶段和单阶段。两阶段除了R-CNN系列还有SPP-Net和R-FCN。

五、本文方法

  1. 系统概述
    SLBAF-Net包含了四部分:双峰自适应融合模块(个人认为应该是双模态)BAFM;主干网络backbone;FPN结构;检测头。在这里插入图片描述
    BAFM由自适应权重块和通道注意力模块组成。backbone在融合的特征图上提取深度特征。FPN结构能将深层语义信息传递到底层,从而获得高分辨率和强语义特征。获取的特征输入到检测头获取检测结果。
  2. 文章提出双数据集的融合策略可分为数据级融合结果级融合特征级融合三种。
  • 数据级融合是最简单的方法,它不需要修改网络结构。一个输入和一个输出。在进入网络前将双数据的信息融合为一个数据,若双数据之间存在巨大的差异,可能导致信息混淆。
  • 结果级融合需要两个网络,在三种策略中计算量最大。不适合在机载计算机上运行
  • 特征级融合利用了上述两种方法的优点,不仅能合并双数据集的信息,同时保证了模型的轻量。两个输入和一个输出。特征级融合策略最适合本文的研究。
  1. 结构图各部分详细展开如下图
    在这里插入图片描述
    文章中写到“通过大量实验,我们已得出结论,越早融合,检测小目标越有效”
  2. 损失
    一般检测网络考虑三种误差:定位误差、置信度误差和分类误差。本文检测的是单类别,所以不考虑类别误差。YOLOv5的定位误差是CIOU,在CIOU基础上有新提出的EIOU,EIOU损失函数包含了重叠损失中心距离损失宽度和高度损失三部分。前两部分和CIOU相同,不同之处在于宽度和高度损失直接使用目标框和锚框的宽度和高度差最小化使收敛速度更快。
    在这里插入图片描述
    L E I O U L_{EIOU} LEIOU表示有效边界框回归损失, ρ 2 \rho^2 ρ2表示预测框中点与目标框中点之间的欧氏距离。b表示预测框的中点 b g t b^{gt} bgt表示目标框的中点;w为与预测框的宽度, w g t w^{gt} wgt为目标框的宽度;h为高度,意义同上。c表示覆盖两个检测帧中最小框的对角线距离。 C w C_w Cw表示覆盖两个检测框的最小框的宽度, C h C_h Ch表示覆盖两个检测框的最小框的高度; L o b j L_{obj} Lobj表示置信度损失; p 0 p_0 p0表示预测框中的目标置信度得分, p i o u p_{iou} piou表示预测框和对应目标框的iou值; B C E o b j s i g BCE^{sig}_{obj} BCEobjsig表示二项交叉熵损失函数; w o b j w_{obj} wobj表示正样本的权重;K为输出的特征图; S 2 S^2 S2表示输出特征图单元;B表示每个单元格中的预测锚框; M k i j o b j M^{obj}_{kij} Mkijobj表示第k个输出特征图的第i个单元格和第j个锚框是否为正样本; x p x_p xp x g t x_gt xgt表示预测向量和真实值向量; α b o x \alpha_{box} αbox α o b j \alpha_{obj} αobj表示定位损失和置信度损失的权重。
    检测帧通常指的是图像或视频中的一帧(单个静止图像),它是计算机视觉任务中的输入数据。对于目标检测任务而言,检测帧是需要进行目标检测的图像或视频帧。 和检测框是不同的概念。
  3. BAFM详述
    在这里插入图片描述
    在这里插入图片描述
  4. Adaptive weight block(AW)
    AW分为三个步骤
  • 第一步:通过平均池化和最大池化操作获取对应的2D权重map,拼接,卷积。List item
    在这里插入图片描述
  • 第二步,获取可见光特征分数 w 1 w_1 w1和红外特征分数 w 2 w_2 w2,通过平均和最大化操作,再用Sigmoid获得。

在这里插入图片描述

  • 第三步,获得可见光特征权重和红外特征权重 w v w_v wv w i w_i wi ,f(x) 是sigmoid激活函数的变体。 α \alpha α取5, β \beta β 取0.5时,效果相当可观。在这里插入图片描述 在这里插入图片描述
  1. channel attention block

在这里插入图片描述
在这里插入图片描述
六、数据集和实验部分

  1. GAN网络训练可见光图像生成伪红外图像,生成了包含2850张可见光和红外图像。500对夜间图像、500对过曝光图像、250对干涉目标图像、250对遮挡图像。
  2. 文章认为普通的数据集无法展现红外图像的优势,所以通过处理可见光图像模拟四种复杂的环境(夜间、过度曝光、干扰和遮挡)。
  3. 实验
    3.1 网络设计
    a的AF0-D16xF:原始图像尺寸下的自适应融合,图像被骨干网络下采样16倍。d图中AF2x-D8xF:在2倍下采样后融合,图像被骨干网理论下采样到8倍
    a,b,c网络比较了网络深度对小目标检测性能的影响;b,d,e网络对比了融合位置对小目标检测性能的影响;b,f比较了网络结构的影响,有无PAN;在这里插入图片描述
    6种网络和YOLOv5在正常dual-UAV数据集上的对比结果,YOLOv5只使用可见光图像进行训练。
    在这里插入图片描述
    为了选择综合性能好的网络结构,本文定义了一个评价指标,值越高,网络综合性能越好。
    在这里插入图片描述
    3.2 融合方法
    在这里插入图片描述
    AWM表示adaptive weight module, BAFM表示bimodal adaptive fusion module, Pure表示网络没有自适应收敛模块
    3.3 实验结果
    在这里插入图片描述
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值