目录
摘要
现有基于Transformer模型缺点
(1)由于原始的符号化方案,无法捕捉到图像的重要特征;
(2)模型只考虑单尺度特征表示,存在信息丢失问题;
(3)如果不考虑丰富的语义上下文和解剖纹理,模型生成的分割标签映射不够准确。
缺点改进办法
本文提出了一种新型的生成对抗变换器Castformer用于二维医学图像分割。 首先,利用金字塔结构构造多尺度表示和处理多尺度变化。 然后,设计了一个新的类感知转换器模块,以更好地学习具有语义结构的对象的判别区域。 最后,我们使用了一种对抗训练策略,提高了分割的准确性,相应地允许基于变压器的鉴别器捕获高层语义相关的内容和底层解剖特征。
算法
现有的基于变压器的方法所面对的挑战
(1)模型输出的是单尺度、低分辨率的特征表示;
(2)以往的工作主要采用标准的标记化方案,将图像硬拆分成16×16的图像块序列,对于下游的密集预测任务,可能无法捕捉到固有的目标结构和细粒度的空间细节;
(3)与标准卷积相比,变压器结构需要网格结构,因此缺乏对包含感兴趣对象而不是不感兴趣背景的区域进行局部化的能力;
(4)现有的方法通常不能保证性能,不能同时捕捉像素之间的全局和局部上下文