论文地址:https://arxiv.org/pdf/2503.02220
目录
一、论文背景与结构
1.1 研究背景
红外小目标检测(IRSTD)在无人机追踪、海上监视等场景中具有重要应用。但受限于小目标尺寸(<10像素)、低信噪比(SCR<3)和复杂背景干扰,传统方法存在以下痛点:
- 单帧检测易受背景噪声干扰,导致漏检/误检
- 多帧传统方法依赖背景建模,动态场景下稳定性差
- 深度学习方法中CNN感受野受限,Transformer缺乏局部建模
1.2 论文结构
章节 | 核心内容 |
---|---|
引言 | 分析现有方法局限性,提出混合架构优势 |
方法 | 提出LVNet的CNN-Transformer混合架构 |
实验 | 在IRDST和NUDT数据集验证SOTA性能 |
结论 | 总结低层特征学习的重要性 |
二、核心创新点解读
2.1 三大创新突破
-
低层特征优先策略
- 发现ViT线性映射丢失局部特征
- 用多尺度CNN替代传统patch embedding
-
U型视频Transformer
- 对称编解码器保持时空一致性
- 滑动窗口机制处理长序列
-
超轻量高效架构
- 参数量仅为LMAFormer的1/221
- 计算量降低92倍仍保持高精度