目录
文章地址
github:GitHub - ZhifangDeng/MISSFormer
本文创新点
1、 提出了基于U-shaped Transformer架构的MISSFormer用于医学图像分割;
2、设计了一种feed-forward network(Enhanced Mix-FFN),基于此创建了Enhanced Transformer Block以获得更具有代表性的特征;
3、提出了一种基于Enhanced Transformer Block的Enhanced Transformer Context Bridge,以获得局部和全局分层多尺度特征的关联。
文章架构
一、整体架构
给定一张输入图像,MISSFormer首先将其送入overlapping patches,后将其馈送至多层次的编码器中产生多尺度特征。编码器中包含enhanced transformer blocks 和 patch merging layer,enhanced transformer blocks 以有限的计算复杂度来学习长程依赖和局部信息,patch merging layer用来生成下采样特征。
MISSFormer将生成的多尺度特征通过Enhanced Transformer Context Bridge来获得不同尺度特征的局部和全局信息的关联。在桥前,不同水平的特征在通道维度重置为一致,在空间维度被拉成向量,并在空间维度进行拼接馈送至h层深度的Enhanced Transformer Context Bridge,之后,恢复至原来的尺寸以获得判别性分层多尺度特征。
多尺度特征经过桥的跳跃链接进入解码器。解码器包含 Enhanced Transformer Blocks 和 patch expanding layer,patch expanding layer用来上采样特征。
二、Enhanced Transformer Block
Transformer Block架构缺点:(1)由于计算复杂度的问题,不适用于高分辨率图像;(2)缺乏获取局部信息的能力。基于此,提出Enhanced Transformer Block。
Enhanced Transformer Block由 LayerNorm, Efficient Self-Attention 和 Enhanced Mix-FFN组成:
1.Efficient Self-Attention:
在Efficient Self-Attention中,为进行有效的自我注意,它应用了空间缩减比R来降低空间分辨率。
2.Enhanced Mix-FFN:
Simple Enhanced Mix-FFN:
Enhanced Mix-FFN:
作者在原始的FFN网络中,嵌入了一个Enhanced Mix block,输入特征图xin,应用深度卷积获取上下文信息,然后递归跳跃连接。
由于每个递归构造了不同的特征分布和一致性,因此具有更多的表达能力。
三、Enhanced Transformer Context Bridge
在这一部分中,作者借助MISSFormer的层次结构探索基于Transformer方法的多尺度特征融合。多级特征图是在编码器后获得的,编码器生成的多级特征 F1、F2、F3、F4,在空间维度上将它们展平化并重塑它们以保持彼此相同的通道深度,然后在扁平化的空间维度中将它们连接起来,将链接的特征馈送到Enhanced Transformer Block中,以构建长程依赖和局部信息的相关性。
消融实验
一、Simple Enhanced Mix-FFN消融研究
二、比较不同补充局部信息的方法
为了证明补充本地信息的必要性和所提方法的有效性,作者将其与其他补充本地信息的方法进行了比较。在保持U形结构不变的情况下,实验是通过用不同的模块替换Transformer block中的FFN来进行的,例如SegFormer中的Mix-FFN,LocalViT中的残余块和Simple MISSFormer中提出的增强型Mix-FFN。
三、Enhanced Mix-FFN中特征一致性的影响
提出的Enhanced Mix-FFN架构:
Enhanced Mix-FFN中特征一致性的进一步影响:
本文作者提出的MISSFormer_S,因缺乏多尺度特征集成,作者设计了消融实验来评估不同递归步骤引起的进一步一致性和分布的影响。结果随着递归步长的增加而改善,改善了特征不足的离散性。
四、Enhanced Transformer Context Bridge的影响
观察到当步长为1时,该模型的DSC改善为2.26%,并且增长率随着递归步长的增加而逐渐降低,甚至为负。猜测在递归步和enhanced transformer context bridge之间或layer norm和模型容量之间有一个平衡,这将在未来的工作中讨论。
对于桥深度的探索,由于医学数据有限,4是MISSFormer中合适的深度。对于基于Transformer的分层特征,输入enhanced transformer context bridge的尺度特征越多,对长程依赖关系和局部信息的模型学习就越全面。
五、Enhanced Transformer Context Bridge中全局-局部信息的必要性研究
MLP Context Bridge具有更准确的边缘预测,Mix FFN由于局部信息的补充而具有更准确的分割结果,而Enhanced Mix FFN由于具有判别性的全局和局部特征,获得了更好的分割性能和适度的边缘预测。
-----------------------------------------------------------------------------------------
关于代码中具体参数以及图像在MISSFormer中的维度变化正在补充...
如有理解错误之处欢迎指正。