【论文阅读】Pinwheel-shaped Convolution and Scale-based Dynamic Loss forInfrared Small Target Detection

柿子花

已于 2025-05-17 15:49:33 修改

阅读量454

点赞数 10

文章标签：论文阅读目标检测人工智能目标跟踪

于 2025-05-17 15:36:21 首次发布

本文链接：https://blog.csdn.net/su20060703/article/details/148027046

版权

作者：Jiangnan Yang Shuangli Liu Jingjun Wu Xinyu Su Nan Hai Xueli Huang

发布时间：2025

发布期刊：AAAI

论文创新点

提出风车型卷积模块（PConv）：增强对红外小目标底层特征的提取。
设计基于尺度动态加权的损失函数（Scale-based Dynamic Loss, SD Loss）：提升对不同大小目标的检测鲁棒性。
构建全新真实红外小目标数据集 SIRST-UAVB：包含无人机与鸟类目标，具备复杂背景与微弱信号。

摘要

近年来，基于卷积神经网络（CNN）的红外小目标检测方法取得了出色的性能。然而，这些方法通常采用标准卷积，忽略了红外小目标像素分布的空间特征。因此，我们提出了一种新颖的风车状卷积（PConv），以取代骨干网络下层的标准卷积。PConv 更符合红外小目标类似高斯的空间分布，改进了特征提取，显著扩大了感受野，且仅带来极小的参数增加。此外，尽管最近的损失函数结合了尺度和位置损失，但它们没有充分考虑这些损失在不同目标尺度上的敏感性变化，限制了对弱小目标的检测性能。为克服这一问题，我们提出了一种基于尺度的动态（SD）损失函数，它根据目标大小动态调整尺度和位置损失的影响，提高了网络对不同尺度目标的检测能力。我们构建了一个新的基准数据集 SIRST-UAVB，这是目前用于实拍单帧红外小目标检测的最大且最具挑战性的数据集。最后，通过将 PConv 和 SD 损失函数集成到最新的小目标检测算法中，我们在 IRSTD-1K 和我们的 SIRST-UAVB 数据集上实现了显著的性能提升，验证了我们方法的有效性和通用性。

方法

风车形卷积

PConv 模块的架构如图 3 所示。与卷积不同，PConv 使用非对称填充为图像的不同区域创建水平和垂直卷积核。这些核向外扩散，其中 h 1 、 w 1 、 c 1 分别表示输入张量 X (h 1 ,w 1 ,c 1 ) 的高度、宽度和通道大小。为了提高训练的稳定性和速度，我们在每次卷积后应用批归一化（BN）和 Sigmoid 线性单元（SiLU）。PConv 的第一层按如下方式执行并行卷积

其中⊗是卷积运算符，W1(1,3,c′)是一个输出通道为c的1×3卷积核。填充参数P(1,0,0,3)分别表示左、右、上、下方向的填充像素数

第一层的交错卷积的结果被连接起来（ (Cat(.,.)) ），输出计算为

最终输出 Y (h 2 ,w 2 ,c 2 ) 计算如下

基于尺度的动态损失

图 2 的右上角显示，基于 IoU 的损失（Sloss）波动高达 86%。较小的目标在 IoU 损失方面遇到更大的不稳定性，从而对模型稳定性和回归产生负面影响。但是，观察到，无论 BBox 大小如何，质心坐标与目标重心的偏差都不会超过 1 个像素。因此，作者根据目标尺度动态调整 Sloss 和 Lloss 的影响系数，减少标签不准确对损失函数稳定性的影响。如图 5（a）所示，较小的目标在带有 BBox 标签的 Sloss 中获得较低的注意力权重。掩码标签可以提高检测准确性，尤其是对于小或形状不规则的目标。然而，如图 2 左下角所示，IRST 的模糊边界导致 62% 的 Sloss 波动。较小的目标会进一步增加这种不稳定性。此外，掩码标签的 Lloss 会考虑图像中所有对象的平均位置，因此在错过一个对象时难以收敛，从而导致更多的误报。因此，如图 5（b）所示，作者增强了 Sloss 对掩码标签的影响，以确保模型更加关注 Sloss

边框损失（SDB loss）：

IoU 表示预测边界框与真实边界框的交并比，αv 用来衡量边界框的宽高比一致性， ρ(.) 是欧几里得距离，b p 和 b gt 是预测的 BBox B p 和目标 BBox B gt 的质心，c 是两个 BBox 的对角线长度

B gtmax =M gtmax =81 是由国际光学工程学会定义的 IRST 的最大尺寸，损失的影响系数基于当前目标框的面积，其范围限制在可调节的δ内

wo、ho是原始图像的宽度和高度，wc、hc是当前特征图的宽度和高度

掩码损失（SDM loss）

其中LMS（掩码尺度损失）与LML（掩码位置损失）作者参照了SLS损失

SIRST-UAVB 数据集

本文作者创建了一个名为 SIRST-UAVB 的基准，它由 3,000 张针对无人机和鸟类的红外图像组成，这些图像是在一年多的时间里在不同季节、天气条件和复杂背景下收集的。该数据集提出了各种挑战，例如不同的目标方向、比例和遮挡，其中小目标的比例很高，其中许多目标几乎是肉眼看不见的。作者根据轨迹对目标进行手动注释，通过反复检查确保准确性。该数据集包括 1742 个鸟类和 2955 个无人机 BBox 标签，但由于难以准确标记微弱的鸟类目标，我们将其从掩码注释中排除。总体而言，SIRST-UAVB 非常适合在复杂的实际场景中进行基于 DL 的检测。

实验

对比实验

作者通过替换 YOLOv8n-p2 （使用 CIoU 损失）检测和 MSHNet （使用 SLS 损失）分割框架中的前两个标准层来评估各种卷积模块。PConv 使用不同的“扇叶” 长度（例如，“4， 3” 表示第一个 PConv 内核是 4，第二个是 3）。检测结果由 P(%) 、 R(%) 和 mAP50(%) ，Params 表示参数的数量。分割结果由 IoU(%) 、 Pd(%) 和 Fa(10 −6 ). 评估（其中表示越低越好）。结果以粗体突出显示以表示最佳性能，而结果以下划线突出显示表示次优效果，如上

使用各种 BBox 损失和 SDB（δ）损失对 YOLOv8n-p2 进行了比较实验如上

使用各种掩模损失和 SDM（δ）损失在 MSHNet 上进行比较实验如上

消融实验

检测与分割模型的消融实验。基线损失在检测中采用 CIoU，在分割中采用 SLS。“√” 表示使用了作者的方法，而” x “表示使用了原始方法。

检测与分割结果可视化如下图

结论

在本文中，作者提出了一种即插即用的 PConv 模块，利用 IRST 的类高斯分布特性，以最少的参数实现了高效、更大的感受野。还引入了一种简单而有效的 SD 损失函数，以解决标签的 IoU 波动问题。通过与现有卷积模块和损失函数的广泛比较，作者的方法始终优于最先进的方法，展现出卓越的准确性和鲁棒性。作者在多个模型上验证了我们方法的有效性和强大的泛化能力，展示了其在推动 IRSTDS 发展方面的潜力。此外，作者还引入了 SIRST-UAVB 数据集，这是一个大规模且具有挑战性的基准数据集