2.Pyramid Medical Transformer for Medical Image Segmentation(PMTrans)
现有的技术背景及其局限:
- 深度卷积体系结构缺乏对图像中的远程依赖关系的把握。
- MDT轴向注意在图像全局进行建模,仍然存在不必要的计算成本且分割图像方法固定,很难适应多形状对象.
探索解决方案:
- 基于 Transformer 的体系结构利用自我注意机制,编码长期依赖关系,并具有极富表现力的表示法.
- 我们提出了金字塔型网络架构即PMTrans来集成多尺度注意力和CNN特征提取, PMTrans通过处理多分辨率图像来捕获多范围关系。.
PMTrans Overview
PMTrans有三个分支(短、中、远程分支)和一个CNN分支。输入图像分别被重新缩放到中范围和长范围分支。来自Transformer分支的特征地图与来自CNN分支(绿色)的不同比例的特征地图相融合。
损失函数L以交叉熵表示
3.TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation
现有的技术背景及其局限:
- U-Net缺陷:由于卷积运算的固有局部性,建模远程依赖存在局限性。
- Transformer缺陷:已经作为具有先天全局自我注意力机制的替代架构出现,但由于低层细节不足,可能导致定位能力有限.
探索解决方案:
- 将两者相结合,transformers从CNN特征映射中编码标记化的图像块,作为提取全局上下文的输入序列。另一方面,解码器对编码特征进行采样,然后将其与高分辨率的CNN特征相结合使定位更精确.
TransUNet OverView
相比于单独以Transformer结构作为编码器会缺乏详细的定位信息,为了弥补这种信息损失,TransUNet采用了CNN-Transformer混合结构作为编码器,并采用级联上采样器实现精确定位(直接上采用导致低层细节信息丢失).
4.U-Net Transformer: Self and Cross Attention for Medical Image Segmentation
现有的技术背景及其局限:
- U-Net缺陷:由于卷积运算的固有局部性,建模远程依赖存在局限性。
- Transformer缺陷:已经作为具有先天全局自我注意力机制的替代架构出现,但由于低层细节不足,可能导致定位能力有限.
探索解决方案:
- 将两者相结合,并引入两个注意力模块,自我关注模块利用编码器末端语义特征之间的全局交互来显式地建模完整的上下文信息。其次,我们在跳跃连接中引入交叉注意,以过滤掉非语义特征,允许在U-Net解码器中进行精细的空间恢复。
U-Net Transformer OverView
MHCA
MHCA模块背后的理念是关闭跳过连接功能中不相关或有噪声的区域,并突出显示对应用程序有重要意义的区域。图4显示了交叉关注模块。基于对高级特征映射Y的关注,MHCA块被设计为跳过连接S的选通操作。然后,计算的权重值通过sigmoid激活函数在0和1之间重新缩放。得到的张量Z,是一个滤波器,其中低幅度元素指示要减少的噪声或不相关区域。
5.TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation
为了进一步释放CNN和Transformer在医学图像分割领域的力量,我们在本文中提出了一种称为TransFuse的不同架构来结合它们。并行运行基于CNN的浅层编码器和基于变压器的网络,然后是我们提出的双融合模块,其中来自两个分支的特征融合在一起,共同做出预测。
为了有效地结合来自CNN和Transformer的编码特征,我们提出了一个新的融合模块BiFusion.
channel attention 增强全局信息,spatial attention 增强局部信息以及抑制无关信息.
交互特征b和参与特征的g,t连接并通过剩余块。所得到的特征有效地捕捉了当前空间分辨率的全局和局部信息。
6.TransBTS: Multimodal Brain Tumor Segmentation Using Transformer
提出问题:将图像分割成补丁作为Transformer的token时,局部结构会被忽略。此外,对于3D的医疗体积数据,连续切片之间的局部特征建模(即深度维度)对于体积分割也是至关重要的。
解决思路:编码器首先利用三维CNN提取三维空间特征图。同时,对特征映射进行了维度改造,将之输入到Transformer编码器中进行全局特征编码。CNN解码器利用Transformer嵌入的特征,进行渐进式级联上采样来预测详细的分割图。
TransBTS OverView:
1.给定一个3D输入 X ∈ C × H × W × D其空间分辨率为 H × W, 深度维度为D(切片数量),通道C。
2.我们首先使用3D CNN来生成的特征图捕获空间和深度信息,然后利用Transformer编码器在全局空间中建立长距离依赖模型。
- 堆叠3x3x3的卷积块,并使用步长为2的卷积进行下采样,逐渐将输入图像编码为低分辨率的具有高层特征表示的 F ∈ K × H /8 × W /8 × D/ 8 ( K = 128 )
- Transformer层期待一个序列作为输入,因此,我们将空间和深维度压缩称为一个维度,结果为 d × N ( N = H 8 × W 8 × D 8 )的特征图f
3.然后利用3D CNN解码器对上采样层和卷积层进行多次叠加,逐步得到高分辨率的分割结果。
- 卷积块被用来减少通道维度从d到K。【前面从K升到d,这里从d降到K,对称式设计】。通过这些操作,得到了特征图 Z ∈ RK × H/ 8 × W/ 8 × D/ 8 ,其具有与在特征编码部分的F一样的维度。
- 在特征映射后,级联的上采样操作和卷积块被用来将Z逐渐的恢复到一个全分辨率的分割结果 R ∈ H × W × D。并且中间使用跳跃连接将编码特征和解码器特征进行融合,通过级联具有更丰富的空间细节的更精细的分割.
7.Convolution-Free Medical Image Segmentation using Transformers
给定一个3D图像块,我们的网络将其分成n*n*n个3D块,其中n = 3或5,并计算每个块的1D编码。网络基于这些块之间的自我关注来预测块的中心块的分割图,整个网络中不含卷积操作.
Network OverView
8.Medical Image Segmentation Using Squeeze-and-Expansion Transformers
目前广泛使用的分割网络主要基于CNN,通常以降低特征分辨率为代价来整合更大的上下文。我们提出了Segtran,一种基于变形子的替代分割框架,即使在高特征分辨率下也具有无限的有效感受野。
Segtran的核心是一个新颖的挤压和扩展转换器:一个挤压的注意块规范了转换器的自我注意,一个扩展块学习多样化的表示。此外,我们提出了一种新的变压器位置编码方案,对图像施加连续感应偏置。
它用CNN主干提取视觉特征,将它们与像素坐标的位置编码相结合,并将它们展平成一系列局部特征向量。局部特征通过几个挤压-扩张变换层来进行上下文关联。为了提高空间分辨率,输入FPN和输出FPN对Transformer前后的特征进行了上采样。
Squeezed Attention Block
Expanded Attention Block
模式关注度G 是通过对每个模式特征进行线性变换,并对所有模式取softmax而获得的。最后对模式进行加权求和,以获得最终输出特性Xout。
Learnable Sinusoidal Positional Encoding
9.Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation
Swin transformer block
与传统的多头自我注意(MSA)模块不同,swin transformer block是基于移位窗口构建的。
Patch merging layer
输入patch分为4部分,通过Patch merging layer连接在一起。这样的处理会使特征分辨率下降2倍。并且,由于拼接操作的结果是特征维数增加了4倍,因此在拼接的特征上加一个线性层,将特征维数统一为原始维数的2倍。
Bottleneck
由于Transformer太深导致收敛比较困难,因此使用2个连续Swin Transformer blocks来构造Bottleneck以学习深度特征表示。在Bottleneck处,特征维度和分辨率保持不变。
10.U-Net: Convolutional Networks for Biomedical Image Segmentation
作者以FCN全卷积神经网络为基础设计了Unet,其中包含两个分支:contracting path用来提取图像特征,捕捉context,将图像压缩为由特征组成的feature maps;expanding path用来精准定将提取的特征解码为与原始图像尺寸一样的分割后的预测图像。
contracting path:
架构中含有着一种重复结构,每次重复中都有2个 3*3 卷积层(无padding)、ReLU层和一个 2*2 max pooling层(stride为2)。每一次下采样后我们都把特征通道的数量加倍。
expansive path:
每一步都首先使用反卷积,每次使用反卷积都将特征通道数量减半,特征图大小加倍。反卷积过后,将反卷积的结果与contracting path中对应步骤的特征图拼接起来。
contracting path中的特征图尺寸稍大,将其修剪过后进行拼接。对拼接后的map再进行2次3*3的卷积。
最后一层的卷积核大小为1*1,将64通道的特征图转化为特定类别数量的结果,分为内容与背景两类.
11.UNet++: A Nested U-Net Architecture for Medical Image Segmentation
U net的跳跃连接是编码子网络的高分辨率特征图和解码子网络相对应的上采样输出相叠加,作者认为这会产生语义鸿沟,encoder最初的卷积得到的feature map表示的是低维的特征,对应尺寸的decoder的feature map 则已经经过了数次卷积,不是一个尺度的特征,U-Net中进行l融合会丢失一些信息。
本文提出了一个全新的的更强的用于医疗影像分割的网络结构UNet++。我们的结构本质上是一个深度监督的编码-解码的网络,编码解码的子网络通过一系列的嵌套的稠密的跳跃路径相连接。重设计跳跃路径的目的是减少编码、解码子网络特征图的语义缺失。
U net++ OverView:
其中每个卷积层前都有一个串联层,该层将同一密集块卷积层的输出与相应的下层密集块的上采样输出融合。本质上,密集卷积块使编码器特征图的语义级别更接近解码器中特征图的语义级别。这样得到的分割结果会尽可能多的保留特征信息.Xij表示该层输出,该跳跃路径公式化为:
函数H(⋅)是一个卷积操作,且紧跟着一个激活函数, μ(⋅)是一个上采样操作.先前的特征图都会累积到当前节点的原因是因为我们沿每个跳过路径使用了密集的卷积块。如下图:
12.UNet +++ A Full-Scale Connected UNet for Medical Image Segmentation
在许多分割研究中,不同尺度的特征图展示着不同的信息。低层次特征图捕捉丰富的空间信息,能够突出器官的边界;而高级语义特征图则体现了器官所在的位置信息。然而,当逐步下采样和上采样时,这些微妙的信号可能会逐渐稀释时。为了充分利用多尺度特征,我们提出了一种新的基于u形的体系结构,命名为UNet 3+。在该网络结构中,我们重新设计了编码器和解码器之间的相互连接以及解码器之间的内部连接,以从全尺度捕获细粒度的细节和粗粒度的语义。
UNet 3+中的每一个解码器层都融合了来自编码器中的小尺度和同尺度的特征图,以及来自解码器的大尺度的特征图,这些特征图捕获了全尺度下的细粒度语义和粗粒度语义。以解码层第三层的输出为例:
统一完特征图之后,还不能结合它们,还需要减少多余的信息。本文选用64个3×3大小的滤波器进行卷积表现效果较好,卷积后便产生64个通道的特征图.
从公式上表示这种Full-scale Skip Connections,i表示沿着编码方向的第i个下采样层,N表示编码器的个数:
其中,函数C表示卷积操作,函数H表示特征聚合机制(一个卷积层+一个BN+一个ReLU),函数D和函数U分别表示上采样和下采样操作,[ ]表示通道维度拼接融合。
13.KiU-Net: Towards Accurate Segmentation of Biomedical Images using Over-complete Representations
Motivation
UNet网络在检测细微的组织结构时性能很差。这是由Unet这种欠完备的网络中较大的感受野造成的。随着网络深度的增加,感受野也就越来越大,使得网络能够更加关注高级的语义信息,但是,细小的组织结构是需要较小的感受野来获得的。于是作者提出了过完备的网络架构Ki-Net。
Proposed Method
Ki-Net网络架构在编码器部分(b),每一个卷积层后面都会紧跟一个上采样;在解码器部分,每一个卷积层后面都会紧跟一个下采样,使得尺寸与输入图片一致。保证了较小的感受野,能够提高对局部细节信息的学习,使得网络在分割边缘等细节时能够做出精确的预测.
KiU Net OverView
将Ki-Net与Unet结合起来,形成了KiU-Net。输入的图片同时经过两个分支,一个分支是UNet,一个分支是Ki-Net。两个分支都是编码器-解码器的架构,编码解码部分都是三个卷积块。
cross residual fusion block
两个分支相同层级的特征图同时作为输入,然后获得两个输出作为两个分支下一层级的输入:
将Ki-Net分支的特征图通过卷积层、ReLu之后与UNet的特征图相加作为UNet下一层级的输入,另一分支同理;
最后将两个分支的特征图相加之后通过一个1x1的卷积获得输出的分割图像。
14.CE-Net: Context Encoder Network for 2D Medical Image Segmentation
Motivation
U-Net 及其变体的一个常见限制是,连续的池化操作或卷积旋转会降低特征分辨率,从而学习越来越抽象的特征表示,编码过程中会丢失部分信息.
Proposed Method
首先,图像被输入到一个特征编码器模块中,选择预训练的ResNet-34模块用于替换原来的U-Net编码器模块。context extractor生成更高级的特征映射。它包含一个密集的空洞卷积块DAC和一个残差多内核池块RMP。最后,提取的特征被输入到解码器模块中。解码器块采用逆卷积来放大要素尺寸,取代了原来的上采样操作。解码器块包含 1*1卷积和 3*#反卷积操作。
DAC block
池化层会导致图像中语义信息的丢失。 为了克服这种限制,采用了空洞卷积进行密集分割.它包含四个级联分支,随着萎缩卷积数量的逐渐增加,从1到1,3和5,然后每个分支的感受域将是3,7,9,19。因此,网络可以提取特征来自不同的尺寸。
RMP block
RMP使用四个不同大小的池内核收集上下文信息。 然后将特征输入1×1卷积以减小特征映射的维数。 最后,上采样再与原始特征残差在一起。尽可能多的保留了抽取的多尺寸特征信息用于解码.
15.Cardiac Segmentation on CT Images through Shape-Aware Contour Attentions
Motivation
由于许多医学影响图中子结构彼此接近,并且具有不可分辨的边界(均匀的强度值),使得分割网络难以聚焦于子结构之间的边界。为了提高邻近器官之间的分割精度,引入了一种新的模型来利用形状和边界感知特征。我们主要提出了一个形状感知的注意模块,它利用距离回归,可以引导模型关注子结构之间的边缘.
Network OverView
为了聚焦心脏结构的形状和边界,我们将标记的真实图像的距离变换特征和对象的轮廓特征结合到注意机制中。具体而言,该方法基于形状感知特征(DT)驱动CNN模型来更好地学习边界感知特征。此外,所提出的注意机制可以通过减少假阳性反应来产生精确的分割结果。我们将我们提出的形状感知轮廓注意机制应用于传统的编码器-解码器结构U-Net.
在形状感知注意模块中,DT特征抑制背景区域的特征响应,允许模型抑制假阳性响应。相反,Contour特征迫使模型关注对象边界的细节。低级特征被馈送到CTN以生成轮廓特征,高级特征被输入到DTTN以直接回归DT特征。我们利用了CTN的低层特征,因为轮廓是局部边缘特征的组合;相反,高层次的特征被用来估计DT,这需要全局形状信息来进行精确的预测。
其中V-transition在仅用几个参数学习多尺度特征方面具有优势,这可以帮助从多尺度CT图像中学习心脏的形状.
Shape-aware Attention Block
最终的形状感知注意力模块利用了来自先前层的三个不同特征,最终的注意力模块可以被视为轮廓和距离变换引导的形状感知注意力模块,输入的三大要素连接在一起。随后,通过采用一系列卷积层和sigmoid函数来生成注意力图。注意力图最终乘以具有输入特征的逐元素算子.细节图示如下:
16. MSRF-Net: A Multi-Scale Residual Fusion Network for Biomedical Image Segmentation
Main Contributions
1.我们提出了一种新的体系结构:MSRF网络,它基于由剩余密集连接组成的DSDF块。DSDF块在多个尺度上交换信息,允许高分辨率和低分辨率特征传播,从而提取语义上有意义的特征,提高各种生物医学数据集的分割性能。
2.在实际操作中,多尺度特征融合不仅计算量大,而且需要大量数据来训练,这在医学成像领域较难实现。所提出的MSRF网络计算多尺度特征,并使用DSDF块有效地融合它们,并采用残差形式,提高了训练效率。
3.所提出的MSRF网络带有门控形状流(gated shape stream),能够改善边缘边界的预测.
Approach:
我们引入一个DSDF块,它采用两种不同的比例特征作为输入。在传播信息流的同时,DSDF块还执行交叉分辨率融合。这建立了继承高分辨率和低分辨率特征表示的双尺度特征融合。编码器网络用于将特征表示馈送到由多个DSDF块组成的MSRF子网络,从而执行多尺度特征交换。使用双尺度融合机制来实现全局多尺度上下文,我们的方法具有连续存储机制,允许保留多尺度特征表示,因为每个DSDF的输入被传递给同一分辨率流中的每个后续DSDF块。。
The MSRF-Net Architecture
17.CFPNet-M: A Light-Weight Encoder-Decoder Based Network for Multimodal Biomedical Image Real-Time Segmentation
Motivation
为了达到改进分割性能和减少模型参数数量,我们对U形网络模型进行了两个改进:
1)设计出结合dilated convolution和简化Inception模块的CFP 模块.
2)简化了U形网络。基于这两种改进,我们提出了一种新的轻量级架构——基于通道的医学特征金字塔网络。
Inception模块(使用不同大小的卷积核以获得不同尺度的特征)的简化:
CFP module的设计:
由于每个FP都采用上图所示的因子分解方式,造成网络深度的增加,所以采用残差连接的方式,提高训练效率:
Architecture of CFPNet-M
18.PocketNet: A Smaller Neural Network for 3D Medical Image Segmentation
Motivation:
现代神经网络中过度参数化的一个主要来源是每个下采样层的特征图数量翻倍。参数数量的快速增长导致网络体系结构需要大量的计算资源。通过在整个网络中保持特征地图的数量不变,我们得到了一种新的CNN架构,称为PocketNet.
Method:
我们没有在U-Net类型架构的每一层将特征映射的数量加倍,而是保持它们不变,在这个过程中大大减少了模型中的参数数量。
Test Network Architectures
将提出的修改策略应用于三种目前广泛使用的分割模型,下图展示了我们测试的所有网络的整体架构。三种建议的体系结构(U-Net、ResNet和DenseNet)之间的区别在于每个块的定义。在三角网中,每个块由两个卷积组成。ResNet块由两个卷积和一个残差结构组成,DenseNet块由两个密集连接的卷积和一个逐点卷积组成
19.Spatially Dependent U-Nets: Highly Accurate Architectures for Medical Imaging Segmentation
Motivation:
为了实现高精度的自动图像分割,我们引入了一种新的深度神经网络架构,该架构利用了解剖结构能够捕捉分割的像素/体素空间中的长期空间相关性。与基于卷积层的现有解决方案相比,我们的方法利用了最近引入的空间依赖层,该层具有无界的感受野,并明确地对空间相干性进行建模。
SDU-Net and SDNU-Net Architecture
核大小为k×k的传统卷积层(red)的感受野为2(N-1)k,其中N是卷积层数,引入空间依赖层后,感受野随之双向拓展(green)。SDNU-Net将卷积层和空间依赖层的混合集成到更深层次的U-Net++中,如下图:
Spatial Dependency Layers
空间依赖层包含三个阶段。输入输出阶段类似于1 × 1核的卷积。校正阶段直接扫描要素地图,在考虑先前值的同时更新特征表示。如图:
两个Project阶段都实现了从输入要素图Xs到输出要素图Xs+1的简单映射变换 (权重矩阵W,偏置向量b均是可学习参数):
Correction阶段的目标是利用Project-in阶段产生的中间表示更新特征值,并通过循环单元定向扫描特征地图考虑了四个方向:左右、右左、上下、下上,这些也可以扩展到与3D图像一致的6个方向.