NUDT 2023 TGRS
本文介绍了一种新的方法——多级TransUNet(MTU-Net),用于解决地球轨道卫星拍摄图像中极小目标检测的问题。由于卫星拍摄的图像覆盖面积极大,且目标非常微小、暗淡和变化多样,传统的红外小目标检测方法无法很好地适应这种任务。为了解决这些问题,作者设计了一个新的数据集,并提出了MTU-Net模型。该模型采用视觉Transformer(ViT)卷积神经网络(CNN)混合编码器提取多层次特征,并使用复制-旋转-缩放-粘贴(CRRP)数据增强技术加速训练过程。
Method
输入单帧图像,网络包含了多级vit cnn混合编码器,U形解码器,八通领域聚类模块以产生像素级的定位和分类结果
1.Multilevel ViT CNN Hybrid Encoder
高分辨率的图像被分为块输入到resnet去提取特征,因为需要识别多种可疑类型目标,因此需要使用long-distance 信息,使用MVTM去细化特征。目标像素在1-10左右,尺度不定。随着网络层数的增加,目标的形状描述容易丢失,因此设计MMFM融合多尺度特征
MVTM:在CNN提取的多尺度特征图后分别接上VIT
MFFM:CNN提取的特征和VIT特征拼接后1×1卷积-->实现long distance
2.U-shaped解码器
跳跃连接层,CNN提取的+MFFM融合的,最后概率为sigmoid函数
3.Eight-Connected Neighborhood Clustering Modul
在解码后利用该模块计算目标中心点。如果概率图得到的点在其邻域内有重叠,则这两个点被认为是邻接像素,若他们的值相等,则认为他们属于同一目标区域,一旦找到了所有像素点,即可获得中心点
4.数据增强CRRP
前后背景分布极其不均,导致过多关注背景,影响网络的收敛
使用赋值粘贴数据增强。将目标和目标邻域的背景复制,以保留上下文信息避免可疑目标的误识别。
将目标和其领域随机复制,并随机旋转和缩放到背景区域
5.focalIOU loss
Focal loss关注小尺度的目标,但会造成更多的虚警,由于背景中存在大量的可疑区域
SoftIOU loss关注大尺度的目标
为了达到双赢,将两者结合
Experiment
NUDT-SIRST-Sea数据集