今天给大家推荐一个涨点发顶会的好方向:Transformer+UNet。这俩热点的结合可以轻松实现“1+1>2”的效果。
医学图像分割的重要性:医学图像分割在医学领域具有很高的落地价值,它对于辅助医生判断和改善患者体验至关重要。
-
Transformer和UNet的互补性:Transformer擅长处理长距离依赖关系和捕捉全局信息,而UNet擅长精确定位和保留高分辨率特征。二者结合可以互补不足,实现更高效的图像处理。
-
融合方法:存在多种Transformer和UNet的融合方法,例如MicFormer和GCtx-UNet等,它们通过不同的架构和机制来增强特征融合和模态交互。
-
Transformer-Unet:提出了Transformer-Unet,通过在原始图像中添加Transformer模块而不是在UNet中的特征图,以提高分割效率。
Transformer和UNet的结合在医学图像分割领域是一个活跃且有前景的研究方向,不同的融合方法和模型架构正在不断被提出和优化,以提高分割的准确性和效率。
我整理出 多篇最新论文,并附上开源代码,方便大家复现找灵感!
论文精选
论文1:AFTer-UNet: Axial Fusion Transformer UNet for Medical Image Segmentation
AFTer-UNet:轴向融合变换器UNet用于医学图像分割
方法
-
轴向融合变换器UNet(AFTer-UNet):提出了一种结合卷积层和变换器的网络结构,利用轴向融合机制融合层内和层间的信息。
-
轴向融合机制:通过分别计算轴向和单层内的自注意力,然后融合这些信息以减少计算复杂度。
-
2D CNN编码器和解码器:使用2D CNN编码器提取细节特征,2D CNN解码器实现像素级分割。
-
变换器编码器:在编码器和解码器之间引入变换器编码器,以融合邻近切片的上下文信息。
创新点
-
轴向融合机制:通过分别计算轴向和单层内的自注意力,减少了3D空间中自注意力计算的复杂度,相比传统方法,减少了(HL·WL)·NA次比较到(HL·WL)+NA次。
-
性能提升:在三个多器官分割数据集上的实验结果表明,AFTer-UNet方法优于当前最先进的方法,例如在Thorax-85数据集上平均DSC(Dice相似系数)达到了92.32%,相较于CoTr模型提高了0.95%。
-
参数和GPU内存效率:AFTer-UNet相比于之前的变换器模型有更少的参数,并且在训练时占用更少的GPU内存。
论文2:BPAT-UNet: Boundary preserving assembled transformer UNet for ultrasound thyroid nodule segmentation
BPAT-UNet:用于超声甲状腺结节分割的边界保留组装变换器UNet
方法
-
边界点监督模块(BPSM):设计用于增强边界特征并生成理想的边界点。
-
适应性多尺度特征融合模块(AMFFM):构建用于融合不同尺度的特征和通道信息。
-
组装变换器模块(ATM):放置在网络瓶颈处,以整合高频局部和低频全局特征。
创新点
-
边界点监督模块(BPSM):通过边界点监督,增强了甲状腺边界信息的保持,提高了边界精度,DSC(Dice相似系数)在TN3k数据集上达到了81.64%,私有数据集上达到了85.63%。
-
适应性多尺度特征融合模块(AMFFM):通过融合多尺度特征,提高了对小结节的检测能力,HD95(95th百分比的不对称Hausdorff距离)在TN3k数据集上达到了14.06,私有数据集上达到了14.53。
-
高准确性:与其它分割方法相比,BPAT-UNet在公共甲状腺数据集TN3k和私有数据集上均显示出更高的准确性。
论文3:ConvWin-UNet: UNet-like hierarchical vision Transformer combined with convolution for medical image segmentation
GaitGL:学习区分性全局-局部特征表示用于步态识别
方法
-
ConvWin变换器结构:提出了结合Swin中的W-MSA结构和卷积的ConvWin变换器结构,以加速收敛速度并改善补丁间信息交换。
-
与UNet集成:将ConvWin变换器结构与UNet的U形结构集成,形成ConvWin-UNet结构。
-
改进的补丁扩展层:用于执行上采样操作的改进补丁扩展层。
创新点
-
ConvWin变换器结构:通过在窗口注意力结构后添加卷积,增强了相邻补丁之间的交互,提高了模型的有效性,特别是在组卷积(GC)比普通卷积表现更好的情况下。
-
性能提升:在Hubmap数据集上,使用ConvWin结构的模型在数据增强时性能提升更为明显,显示出对空间理解能力(如旋转不变性)的改进。
-
多阶段输出和损失函数:通过使用多阶段输出和结合不同损失函数(如CrossEntropy Loss、Dice Loss、MSSIM),模型性能得到进一步提升,特别是在使用MSSIM时性能略有提升。
论文4:CTA-UNet: CNN-transformer architecture UNet for dental CBCT images segmentation
CTA-UNet:用于牙科CBCT图像分割的CNN-Transformer架构UNet
方法
-
CNN-Transformer架构:提出了一种结合了CNN和Transformer优势的UNet网络结构,CNN部分有效提取局部特征,而Transformer部分捕获长期依赖关系。
-
多空间注意力模块:在网络中包含多个空间注意力模块,增强了网络提取和表示空间信息的能力。
-
Masked Image Modeling方法:引入了一种新的Masked Image Modeling(MIM)方法,用于同时预训练CNN和Transformer模块,以减轻由于标记训练数据量小而带来的限制。
创新点
-
CNN-Transformer架构:通过并行结构结合了CNN和Transformer的优势,提高了网络性能,实验结果显示在牙科CBCT图像分割任务中取得了87.12%的Dice Score和78.90%的IoU,优于现有模型。
-
多空间注意力模块:通过空间注意力机制增强了网络对特征空间信息的权重,提升了特征融合的效果。
-
Masked Image Modeling方法:提出了CTAMIM方法,通过延迟训练中mask的放置,更有效地训练卷积操作的权重参数,提高了模型在小数据集上的性能。
-
性能提升的具体数据:CTA-UNet在牙科CBCT图像分割中实现了0.525 mm的HD95和0.199 mm的ASSD,相比其他模型有显著提升,显示出更强的自动分割能力和准确性。