MISSFormer: An Effective Medical Image Segmentation Transformer---文献阅读记录(仅作个人学习记录使用)

目录

文章地址

本文创新点

文章架构

消融实验


文章地址

paper:MISSFormer: An Effective Transformer for 2D Medical Image Segmentation | IEEE Journals & Magazine | IEEE Xplore

github:GitHub - ZhifangDeng/MISSFormer

本文创新点

1、 提出了基于U-shaped Transformer架构的MISSFormer用于医学图像分割;

2、设计了一种feed-forward network(Enhanced Mix-FFN),基于此创建了Enhanced Transformer Block以获得更具有代表性的特征;

3、提出了一种基于Enhanced Transformer Block的Enhanced Transformer Context Bridge,以获得局部和全局分层多尺度特征的关联。

文章架构

(a)MISSFormer (b)The Enhanced Transformer Block (c)The Simple Enhanced Mix-FFN (d)The Enhanced Mix-FFN (e)The Enhanced Transformer Context Bridge

 

一、整体架构

给定一张输入图像,MISSFormer首先将其送入overlapping patches,后将其馈送至多层次的编码器中产生多尺度特征。编码器中包含enhanced transformer blocks 和 patch merging layer,enhanced transformer blocks 以有限的计算复杂度来学习长程依赖和局部信息,patch merging layer用来生成下采样特征。

MISSFormer将生成的多尺度特征通过Enhanced Transformer Context Bridge来获得不同尺度特征的局部和全局信息的关联。在桥前,不同水平的特征在通道维度重置为一致,在空间维度被拉成向量,并在空间维度进行拼接馈送至h层深度的Enhanced Transformer Context Bridge,之后,恢复至原来的尺寸以获得判别性分层多尺度特征。

多尺度特征经过桥的跳跃链接进入解码器。解码器包含 Enhanced Transformer Blocks 和 patch expanding layer,patch expanding layer用来上采样特征。

二、Enhanced Transformer Block

Transformer Block架构缺点:(1)由于计算复杂度的问题,不适用于高分辨率图像;(2)缺乏获取局部信息的能力。基于此,提出Enhanced Transformer Block。

Enhanced Transformer Block由 LayerNorm, Efficient Self-Attention 和 Enhanced Mix-FFN组成:

Enhanced Transformer Block

 

1.Efficient Self-Attention:

在Efficient Self-Attention中,为进行有效的自我注意,它应用了空间缩减比R来降低空间分辨率。

K_(new) = Reshape(N/R,C*R) W(C*R,C) 

V_(new) = Reshape(N/R,C*R) W(C*R,C)

Attention(Q,new(K),new(V)) = SoftMax(\frac{Q*new(K)T}{dhead^{1/2}})new(V)

2.Enhanced Mix-FFN:

Simple Enhanced Mix-FFN (左)and Enhanced Mix-FFN(右)

 Simple Enhanced Mix-FFN:

y1 = LN(Conv(FC(x_{in})) + FC(x_{in}))

x_{out} = FC(GELU(y1)) + x_{in}

Enhanced Mix-FFN:

作者在原始的FFN网络中,嵌入了一个Enhanced Mix block,输入特征图xin,应用深度卷积获取上下文信息,然后递归跳跃连接。

y_{i} = LN(x_{in} + y_{i-1})

x_{out} = FC(GELU(y_{i})) + x_{in}

由于每个递归构造了不同的特征分布和一致性,因此具有更多的表达能力。

三、Enhanced Transformer Context Bridge

 The Enhanced Transformer Context Bridge

在这一部分中,作者借助MISSFormer的层次结构探索基于Transformer方法的多尺度特征融合。多级特征图是在编码器后获得的,编码器生成的多级特征 F1、F2、F3、F4,在空间维度上将它们展平化并重塑它们以保持彼此相同的通道深度,然后在扁平化的空间维度中将它们连接起来,将链接的特征馈送到Enhanced Transformer Block中,以构建长程依赖和局部信息的相关性。

token Fi = Reshape(Fi, [B, -1, C])

merge token = Concatenate(token Fi , dim = 1)

Atten token = Eff icient Atten(LN(merge token))

res token = LN(Atten token + merge token)

split token = Split(res token, dim = 1)

F F Ni = EnhancedM ix F F N(split token)

output = Concatenate(F F Ni , dim = 1) + res token

消融实验

一、Simple Enhanced Mix-FFN消融研究

Effectiveness of Simple Enhanced Mix-FFN

 

二、比较不同补充局部信息的方法

为了证明补充本地信息的必要性和所提方法的有效性,作者将其与其他补充本地信息的方法进行了比较。在保持U形结构不变的情况下,实验是通过用不同的模块替换Transformer block中的FFN来进行的,例如SegFormer中的Mix-FFN,LocalViT中的残余块和Simple MISSFormer中提出的增强型Mix-FFN。

supplement local information

 

三、Enhanced Mix-FFN中特征一致性的影响

提出的Enhanced Mix-FFN架构:

Enhanced Mix-FFN

 

Enhanced Mix-FFN中特征一致性的进一步影响:

Enhanced Mix-FFN中的递归跳跃链接的影响

 本文作者提出的MISSFormer_S,因缺乏多尺度特征集成,作者设计了消融实验来评估不同递归步骤引起的进一步一致性和分布的影响。结果随着递归步长的增加而改善,改善了特征不足的离散性。

四、Enhanced Transformer Context Bridge的影响

Impact of Enhance Transformer Context Bridge on recursive skip connection of MISSFormer.

观察到当步长为1时,该模型的DSC改善为2.26%,并且增长率随着递归步长的增加而逐渐降低,甚至为负。猜测在递归步和enhanced transformer context bridge之间或layer norm和模型容量之间有一个平衡,这将在未来的工作中讨论。

exploration of the bridge depth  、multi-scale information in MISSFormer

对于桥深度的探索,由于医学数据有限,4是MISSFormer中合适的深度。对于基于Transformer的分层特征,输入enhanced transformer context bridge的尺度特征越多,对长程依赖关系和局部信息的模型学习就越全面。

五、Enhanced Transformer Context Bridge中全局-局部信息的必要性研究

different modules in Transformer Context Bridge

MLP Context Bridge具有更准确的边缘预测,Mix FFN由于局部信息的补充而具有更准确的分割结果,而Enhanced Mix FFN由于具有判别性的全局和局部特征,获得了更好的分割性能和适度的边缘预测。

-----------------------------------------------------------------------------------------

关于代码中具体参数以及图像在MISSFormer中的维度变化正在补充...

如有理解错误之处欢迎指正。

基于Swin Transformer的图像分类的国内外研究现状如下: 1. Swin Transformer:Swin Transformer是一种基于Transformer的图像分类模型,它通过在编码器路径中使用Swin Transformer替代3D视觉Transformer来改进原始UNETR模型。Swin Transformer通过将图像分割为小块,并在每个块上应用Transformer操作来处理图像。这种方法在图像分类任务中取得了很好的性能。 2. MISSFormerMISSFormer是另一种基于Transformer的图像分类模型,它将增强的Transformer块作为网络的主要组成部分。MISSFormer通过在注意力模块中嵌入卷积运算来解决Transformer不适合捕获本地上下文的问题。它还利用Enhanced Transformer Context Bridge模块进行多尺度信息融合,以捕获不同尺度特征之间的局部和全局相关性。 3. PVTv1和PVTv2:PVTv1和PVTv2是另外两种基于Transformer的图像分类模型。它们在注意力模块中嵌入了卷积运算,以解决Transformer不适合捕获本地上下文的问题。这些模型在图像分类任务中取得了很好的性能。 4. Uformer:Uformer是一种基于Transformer的图像分类模型,它在Transformer块中直接使用卷积层来限制特征的区分。这种方法可以提高特征的表达能力,并改善图像分类的性能。 总结来说,基于Swin Transformer的图像分类研究主要集中在改进Transformer模型以捕获本地上下文信息,并利用卷积运算和多尺度信息融合来提高性能。这些方法在图像分类任务中取得了显著的进展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值