UACANet: Uncertainty Augmented Context Attention for Polyp Segmentation

不确定性增强的上下文注意力用于息肉分割。添加链接描述
继续看不确定性的文章,这里是医学分割,和研究方向有一定的关系。
作者在特征图中考虑到了不确定区域。作者对U-Net进行了修改,(修改的完全看不到u-net的影子了),同时额外添加了encoder和decoder,在每一个预测结构都计算出一个特征图,并传播到下一个模块。有点类似于Cascade PSP的感觉。在每一个预测模块,之前的预测图用于计算前景,背景和不确定区域。然后我们计算特征图每一个像素和特征表示之间的关系。(不理解的话看框架就可以了,本文的框架设计的很巧妙很有意思。)
息肉分割是二分类问题,本文结合了前人ParNet网络的优势,又提出了自己的创新点。作者在本文使用encoder的输出和来自底下的decoder特征去结合高层次语义特征。
在这里插入图片描述
1:三个PAA-e的输出用来融合,输送进PAA-d,和UACA。再经过一个卷积,得到初始的输出图。
2:PAA-e和PAA-d的输出进行concat,输送到UACA,初始的输出图作为上下文引导也输入到UACA。UACA内部结构一会说。
3:UACA的输出经过1x1卷积核原始的输出图进行concat。得到第二个输出图。
4:接着将第二个PAA-e的输出和之前的UACA进行拼接。用于下一个UACA。
5:流程同上。
6:经过三个UACA后,最终的输出经过一个四倍的双线性上采样和sigmoid函数。
总结:backbone的输入到PAA-e编码,然后输送到PAA-d得到初始的特征图作为初始引导图。这样会是UACA更专注于学习除了初始特征图之外的残差特征图帮助连续的UACA专注于边界等不确定的区域而不是确定的区域。
我们使用了BCE loss和IoU loss,损失函数如下所示:
在这里插入图片描述
i表示同一个位置预测图和gt的像素值。y表示gt,yhat表示预测图。

PAA-e和PAA-d
对于语义分割,研究者致力于寻找一个结构可以提取丰富的特征图同时包含高层次语义信息和低层次细节信息。自注意力就是一个很好的方法。Axial attention(轴注意力)在单轴执行非局部操作,作者提出PPA,并行的轴注意力(水平和垂直)用于提取全局依赖和局部表征。如果是串行连接轴注意力需要添加可训练的位置编码,我们不使用,因为位置编码对于小物体用处不大。
使用并行的逐像素相加效果好于concat,input作为两个注意力的输入对最终的贡献相同。并且单一的注意力会导致图像的变形,逐像素相加可以弥补这种伪影。
在这里插入图片描述
U-Net使用低层特征而并没有进行通道缩减,冗余信息会降低最终的表现,为了不丢失细节信息且减少通道维度,我们设计了带有Receptive Field Block的PAA-e。如(a)所示
在这里插入图片描述
(a)的设计类似于PPM,本质上是为了扩大感受野,图中显示的在PAA之前使用的,将生成的结果concat后再与其他backbone的输出concat,输送到decoder中,中间加了PAA,目的是聚合不同层PPA-e的输出。
不确定增强的上下文注意力:
reverse attention可以带来模糊的边界引导而没有边界监督的清晰形状。什么是reverse attention?图片来源
在这里插入图片描述
预测图经过一个softmax,到的一个概率图(0-1之间),假如是前景的照片,用1减去概率图,得到的背景照片,然后与原图相乘,目的是突出背景。
作者发现,边界区域出现时,特征分通常在0.5,即有很大的不确定性。我们假设正常的特征图和反向特征图有等量的边界信息,因为1减去正向的就是反向的。作者提出UACA模块,一个结合不确定区域的注意力机制用来提取丰富的语言特征,并且不需要额外的边界引导。
之前计算的初始特征图作为m,前景mf,背景mb,不确定图mu
在这里插入图片描述
在这里插入图片描述
我们使用最大操作是为了分清三个区域,因为不确定区域已经代表了他们的共同区域。这些区域有大量的冗余信息。
reverse attention类似于CBAM,对特征图进行逐通道相乘。类似于OCR,三个区域的表征向量可以计算为:
在这里插入图片描述
在图片中表示为:
在这里插入图片描述

实验:
backbone:Res2Net
UACANet-S:所有卷积通道为32
UACANet-L:所有卷积通道为256
图像大小:352x352
优化器:Adam
epoch:240
学习率:0.0004

PPA消融实验:

在这里插入图片描述
不确定区域消融实验:
在这里插入图片描述
对比最好的结果:
在这里插入图片描述
可视化:
在这里插入图片描述

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多任务学习利用不确定性来加权损失用于场景几何和...... 多任务学习是一种机器学习方法,旨在通过同时学习多个相关的任务来提高模型的性能。在场景几何和...中,我们可以利用多任务学习来同时学习场景几何和...两个任务,并利用不确定性来加权损失函数。 不确定性是指模型对于不同任务的预测结果的置信度或可靠性。通过测量模型的不确定性,我们可以了解模型对于不同任务的自信程度,并根据其不确定性来决定在损失函数中的权重。 具体来说,在训练过程中,我们可以采用如下的多任务学习框架:首先,我们定义两个任务,即场景几何和...。然后,我们构建一个网络模型,该模型有两个分支,分别用于处理场景几何和...任务。每个分支都有自己的损失函数,用于衡量模型在相应任务上的性能。 在计算总体损失时,我们可以使用不确定性来加权每个任务的损失函数。一种常见的方法是使用模型的输出结果的方差或置信度来表示不确定性。如果模型对于某个任务有较高的置信度,我们可以将该任务的损失函数的权重设为较大值;相反,如果模型对于某个任务的置信度较低,我们可以将该任务的损失函数的权重设为较小值。 通过利用不确定性加权损失函数,我们可以让模型在训练过程中更加关注自身较为确定的预测任务,从而提高模型在这些任务上的性能。这种方法可以提高多任务学习的效果,使得模型能够更好地学习场景几何和...两个任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值