【论文阅读】Small-Object Sensitive Segmentation Using Across Feature Map Attention


看论文的目的:近期处理一个小目标分割的数据集,这篇论文是提出了一个即插即用的模块想试一下能不能提点。

论文:Small-Object Sensitive Segmentation Using Across Feature Map Attention

代码:https://github.com/ShengtianSang/AFMA

摘要

研究的问题:语义分割很重要,虽然深度学习方法在语义分割领域取得了很高的准确率。但是由于卷积核池化操作造成的信息损失,小/细目标分割仍然是一个挑战。总起来说,解决小目标物体分割困难的问题。
解决方法:提出了AFMA一种注意力方法,AFMA是使用原始图片不同级别的特征量化相同类别的小物体和大物体之间的内部联系。
作用:AFMA可以补偿小物体高级特征信息的损失,改善小/细目标分割。
应用:可以用作各种现有框架的高效插件,并且比一线的研究产生更多的可解释表示。
效果:在CamVid和Cityscapes上对八种常用的分割方法和其他现有的小目标分割模型进行了广泛的实验,实质性地、一致地改善了小/细目标的分割。
关键词:小目标语义分割,跨特征图注意力

介绍

卷积操作的示例。该示例使用卷积,内核大小为10x10,参数全部设置为1,步幅为10。此卷积运算输出是原始输入像素的百分之一。a) 大小为800x1200像素的原始图像b) 原始图像中较大的汽车分辨率为160x220像素 c)表示分辨率为30x40像素的叫小棋差d)卷积操作形成的原始图像的特征图e)大型汽车的特征图f)小型汽车的特征图 g)小型汽车c)和特征图d)之间的关系 h)利用获得的关系和大型汽车的输出来提高性能
提出利用同一类别内大小对象之间的关系来补偿特征传播带来的信息损失。例如上图b)和c)显示的,大型汽车和小型汽车非常相似,尽管它们的尺寸差距很大,如果我们知道不同的图像区域代表相同类型的对象,则大型汽车的输出可以用于纠正小型汽车区域的结果。受到同种类别的物体在成像空间中的小目标和特征空间的大目标更有相比性的启发,本文深入研究特征空间来量化这种关系。利用小型车的原始图像和大型车的特征图,可以推导出小型车和大型车之间的关系。
提出了跨特征映射注意力(AFMA),它通过计算中间特征块和原图像块之间的相互关系矩阵来表示同一类别中的对象相似性。

方法和公式

Across Feature Map Attention(AFMA)
在这里插入图片描述
Probability/Output Modulation
在这里插入图片描述
Gold AFMA Computation
在这里插入图片描述
在这里插入图片描述
Train Losses
总体训练目标包含两个损失函数:

  1. 基本的分割损失,目的是最小化预测值和分割真值标签的差异。
  2. AFMA损失,目的是最小化学习到的AFMA和gold AFMA(由真实值计算得到的)。
    对于分割损失采用中频平衡加权Sigmoid交叉熵损失进行训练。对于AFMA采用均方误差(MSE)损失进行训练。
    总的损失函数就是这两个损失函数相加。

实验

Datasets:CamVid和Cityscape
Evaluation Measures:IoU,mIoU,mIoUs,mIoUL
优化算法:SGD (momentum=0.9,weight decay = 5e-4,自适应学习率)
batchsize:CamVid 16 Cityscape 8
数据增强:…

结果

在这里插入图片描述
在这里插入图片描述
与没有AFMA的一般模型相比,将AFMA模块应用于基线分割网络将显著提高小对象的IoU分数。然而,对于某些类型的大型对象,AFMA会导致基线模型的性能略有下降。

可视化和理解AFMA

在这里插入图片描述
上面的例子表明,对于特定类型的对象,该方法学习包含关于该对象的少量信息的原始图像块和包含关于对象类别的大量信息的特征地图块之间的关系,这产生了原始图像中相同类型的小对象和大对象之间的关系。由于现有的语义分割方法对于大对象分割效果很好,文章使用大对象的结果来指导小对象位置的像素结果。

讨论

为什么不直接调整输入图像的大小以获得AFMA?
由于不同对象的大小可能有很大的不同,我们的方法通过利用原始图像及其相应的特征图来量化大小对象之间的关系。另一个更直接的解决方案可能是直接将原始图像的大小调整为更小的尺寸,然后相同尺寸的图像块可以包含更大的对象。类似地,我们也可以基于原始输入和调整大小的图像来量化大小对象之间的关系(根据第3.2节)。然而,我们根据经验发现,通过调整输入图像的大小来计算AFMA会导致比我们的方法低得多的性能。这可能是由于特征图比来自调整大小的图像的图像块(相同大小)享有更大的感受野和更丰富的语义信息。
图像/特征补丁的形状/大小?
我们注意到,方形图像/特征面片可以扩展到任何形状/大小。例如,如视觉Transformer model【46】和SwinTransformer【56】所示,图像补丁大小可以是4 4、16 16和32 32。此外,不同的类别可能有利于不同的贴片形状/大小。例如,在计算AFMA时,汽车类别可能倾向于方形图像/特征面片,而柱杆对象可能倾向于细长矩形图像/特征面片。我们将在未来的工作中探索斑块的大小和形状对分割性能的影响。
如果一个图像对于一个给定的类只有一个对象呢?
该方法利用对象之间的关系来补偿小对象的信息丢失。然而,在某些应用中,图像中可能只有一个特定类型的对象。例如,CT图像通常只包含一个器官,如肝脏、心脏等。在这里,我们评估模型在分别出现在CamVid和Cityscapes中的每个类别的对象上的性能。在线提供的补充表6中的结果表明,我们的方法仍然提高了所有基线模型在小对象分割上的性能。原因可能是,对于这两个数据集,只有少数对象单独出现(详细统计数据见补充表7和表8,可在线查阅)。大多数图像包含两个以上的同一类对象,我们的方法仍然可以通过其他大量的共现对象来学习类别之间的关系。此外,我们在只包含单个对象的数据集上测试了我们的方法。有趣的是,我们根据经验发现,我们的方法仍然提高了肝脏分割(LiTS5)、皮肤损伤(黑色素瘤检测的皮肤损伤分析【57】)和鸟类(CaltechUCSD鸟类【58】)数据集的分割性能。例如,具有AFMA的PAN在皮肤损伤分割上提高了1.9%的mIoU,并且具有AFMA的MaNet在鸟分割上提高了3.6%的mIoU。详细结果可在补充表9和补充图9中找到,可在线获得。我们认为这是因为AFMA可以增强目标对象与其他图像斑块之间的不相关关系,从而消除目标对象的假阳性预测。

结论

本文提出了跨特征图注意力(AFMA),以提高现有语义分割模型对小物体进行分割的性能。该技术首先将原始图像及其特征图划分为相同大小的图像块。然后,从各个层次的特征图中计算图像补丁之间的注意力,得到大小物体之间的关系。获得的注意力用于提高语义分割的性能。实验结果表明,该方法能够显著提高小物体的分割精度,提高整体分割性能。该方法基于MaNet、Unet、Unet++、LinkNet、PSPNet、PAN、DeepLabV3、FPN等现有的CamVid和Cityscapes小目标分割方法进行了评估。与现有方法相比,我们的方法在小物体分割方面取得了相当大的改进。此外,我们还对实验结果进行了更深入的分析,以更好地了解AFMA的机制。提议的AFMA是一个轻量级模型,可以很容易地与众多现有的分段网络相结合,同时在部署中只产生可以忽略的额外培训/测试时间或费用。

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值