MTU-Net: Multilevel TransUNet for Space-Based Infrared Tiny Ship Detection

NUDT 2023 TGRS

本文介绍了一种新的方法——多级TransUNet(MTU-Net),用于解决地球轨道卫星拍摄图像中极小目标检测的问题。由于卫星拍摄的图像覆盖面积极大,且目标非常微小、暗淡和变化多样,传统的红外小目标检测方法无法很好地适应这种任务。为了解决这些问题,作者设计了一个新的数据集,并提出了MTU-Net模型。该模型采用视觉Transformer(ViT)卷积神经网络(CNN)混合编码器提取多层次特征,并使用复制-旋转-缩放-粘贴(CRRP)数据增强技术加速训练过程。

Method

输入单帧图像,网络包含了多级vit cnn混合编码器,U形解码器,八通领域聚类模块以产生像素级的定位和分类结果

1.Multilevel ViT CNN Hybrid Encoder

高分辨率的图像被分为块输入到resnet去提取特征,因为需要识别多种可疑类型目标,因此需要使用long-distance 信息,使用MVTM去细化特征。目标像素在1-10左右,尺度不定。随着网络层数的增加,目标的形状描述容易丢失,因此设计MMFM融合多尺度特征

MVTM:在CNN提取的多尺度特征图后分别接上VIT

MFFM:CNN提取的特征和VIT特征拼接后1×1卷积-->实现long distance

2.U-shaped解码器

跳跃连接层,CNN提取的+MFFM融合的,最后概率为sigmoid函数

3.Eight-Connected Neighborhood Clustering Modul

在解码后利用该模块计算目标中心点。如果概率图得到的点在其邻域内有重叠,则这两个点被认为是邻接像素,若他们的值相等,则认为他们属于同一目标区域,一旦找到了所有像素点,即可获得中心点

4.数据增强CRRP

前后背景分布极其不均,导致过多关注背景,影响网络的收敛

使用赋值粘贴数据增强。将目标和目标邻域的背景复制,以保留上下文信息避免可疑目标的误识别。

将目标和其领域随机复制,并随机旋转和缩放到背景区域

5.focalIOU loss

Focal loss关注小尺度的目标,但会造成更多的虚警,由于背景中存在大量的可疑区域

SoftIOU loss关注大尺度的目标

为了达到双赢,将两者结合

Experiment

NUDT-SIRST-Sea数据集

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值