transformer 用于医学图像分割
原论文:TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation
摘要:在本文中,提出了 TransUNet,它兼具 Transformers 和 U-Net 的优点,可作为医学图像分割的强大替代方案。
一方面,Transformer 将来自卷积神经网络 (CNN) 特征图的标记化图像块编码为用于提取全局上下文的输入序列。
另一方面,解码器对编码特征进行上采样,然后将其与高分辨率 CNN 特征图结合以实现精确定位。
introduction
背景介绍:
1.基于CNN的方法由于卷积操作,存在固有的限制,难以对long-range relation 进行建模。
于是 有人提出了基于self-attention的CNN结构。
2.专为序列到序列预测而设计的 Transformers 已经成为替代架构,它完全采用分配卷积算子,并且完全依赖于注意力机制。
Transformer 不仅在建模全局上下文方面非常强大,而且在大规模预训练下对下游任务表现出卓越的可迁移性。
总结来说:
Transformers 将输入视为 1D 序列,并且专门专注于对所有阶段的全局上下文进行建模,因此导致缺乏详细定位信息的低分辨率特征。并且这些信息不能通过直接上采样到全分辨率来有效恢复,因此会导致粗略的分割结果。
另一方面,CNN 架构(例如 U-Net [12])提供了一种提取低级视觉线索的途径,可以很好地弥补这种精细的空间细节。
补充一下: Hausdorff distance
如果任一集合的每个点都靠近另一集合的某个点,则两个集合在 Hausdorff 距离上很接近。
Hausdorff 距离是您可以被对手强迫行进的最远距离,他在两组中选择一个点,然后您必须从该点行进到另一组。
换句话说,它是从一组中的一个点到另一组中最近点的所有距离中最大的一个。
Method
Transformer as Encoder
图像序列化:
Sample math formulae:
Patch Embedding
3.2 TransUNet
直接使用transformer的话,
since H/P × W/P is usually much smaller than
the original image resolution H × W,
这个策略不是 Transformers 在分割中的最佳使用时代
CNN-Transformer Hybrid as Encoder
我们选择这种设计是因为
1)它允许我们在解码路径中利用中等高分辨率的 CNN 特征图;
2) 我们发现混合 CNN-Transformer 编码器的性能比简单地使用纯 Transformer 作为编码器要好。
Cascaded Upsampler
Cascaded Upsampler
它由多个上采样步骤组成,用于解码隐藏特征以输出最终分割掩码。将H/P × W/P 上采样到H × W。
级联上采样,每个块依次由一个 2× 上采样算子、一个 3×3 卷积层和一个 ReLU 层组成。
实验和结论
数据集:
Synapse multi-organ segmentation dataset突触多组织分割【数据集地址】
我们在MICCAI 2015 Multi-Atlas Abdomen Labeling Challenge中使用了30张腹部CT扫描,总共有3779张轴向对比增强腹部临床CT图像
评价:平均 DSC 和平均 Hausdorff 距离 (HD) 8个腹部器官(主动脉,胆囊、脾脏、左肾、右肾、肝脏、胰腺、脾脏、胃,随机拆分 18 个训练案例)12例验证。
自动心脏诊断挑战【心脏挑战地址】
MRI scanners
通过将 TransUNet 与之前的四个最先进技术进行比较,对 Synapse 多器官分割数据集进行了主要实验:1)V-Net [9];
2) DARR;
3) U-Net 和 4) AttnUNet
Analytical Study
1)跳过连接的数量;
2) 输入分辨率;
3) 序列长度和补丁大小
4) 模型缩放