医疗图像处理2023：Transformers in medical imaging: A survey

我们研究了transformer在医学图像分割、检测、分类、恢复、合成、配准、临床报告生成等任务中的应用。特别是，对于这些应用程序中的每一个，我们都开发了分类，确定了特定于应用程序的挑战，并提供了解决这些挑战的见解，并强调了最近的趋势。此外，我们对该领域的整体现状进行了批判性的讨论，包括确定关键挑战，开放问题，并概述了有希望的未来方向。

cnn在许多医学成像方式上取得了显着进步，包括放射照相，内窥镜检查，计算机断层扫描(CT) ，乳房x线摄影图像(MG)，超声图像，磁共振成像(MRI)和正电子发射断层扫描(PET) 。卷积局部操作并提供平移等方差，虽然这些特性有助于开发高效和通用的医学成像解决方案，但卷积操作中的局部接受野限制了捕获远程像素关系。此外，卷积滤波器具有固定权重，在推理时不适应给定的输入图像内容。而基于注意力的“Transformer”模型已经成为一种有吸引力的解决方案，因为它们能够编码远程依赖关系并学习高效的特征表示。vit的预测误差比cnn更接近人类的预测误差。

如图2021年关于transformer在各个领域发表的论文数量，Seg:分割，Class:分类，Rest:还原，Reg:配准，Synth:合成，Det:检测，Rep:报告生成，US:超声。

贡献与安排

提供了超过125篇相关论文；根据其在医学成像中的应用对论文进行分类，提供了该领域的详细覆盖，都开发了一个分类法，突出了特定于任务的挑战，并根据所回顾的文献提供了解决这些挑战的见解；批判性的讨论，未来方向，Vision Transformer。下面要介绍transformer在几种医学成像任务中的应用，我们开发了一个分类法并确定了特定于任务的挑战。

二、CNN和Transformer

大致分为基于cnn和基于viti的方法，介绍CNN优点和缺点、vit核心概念。

1.CNN

cnn的进步主要得益于新颖的架构设计、更好的优化程序、特殊硬件(gpu)的可用性和专门构建的开源软件库(。但是cnn对大型标记数据集的依赖限制了其在全谱医学成像任务中的适用性，此外，基于cnn的方法通常更具挑战性，并且经常充当黑箱解决方案。

尽管有这些架构和算法上的进步，但cnn成功背后的决定性因素主要归因于其在处理尺度不变性和建模局部视觉结构方面的图像特定归纳偏差。虽然这种固有局域性(有限的接受域Rois)为cnn带来了效率，但它削弱了它们在输入图像中捕获远程空间依赖关系的能力。图就不展示了，但是结果就是这样。

2.ViT

vit主要就是注意力块作为神经网络层，它们聚集了来自整个输入序列的信息，Dosovitskiy等人(2020)将图像解释为一系列补丁，并通过NLP中使用的标准transformer编码器对其进行处理。简要介绍了vit成功背后的核心组成部分，即自我关注和多头自我关注。具体实现如下图，其他什么公式原理可以看我的swin transformer，差不多。

Transformer模型的成功被广泛地归因于自关注(SA)机制，因为它能够对长期依赖关系进行建模。SA机制背后的关键思想是学习自对齐，即确定单个令牌(补丁嵌入)相对于序列中所有其他令牌的相对重要性。多头自注意(MHSA)由多个SA块(头部)组成，这些块(头部)按通道连接在一起，以模拟输入序列中不同元素之间的复杂依赖关系。每个块都有自己可学习的权值矩阵。下图为vit和cnn的发表论文在各个领域的占比。

三、Transformer应用于各个领域

1.图像分割

transformer的全局上下文建模能力很重要，因为分布在一个大的感受野上的器官可以通过对空间距离较远的像素之间的关系进行建模来有效地编码(例如，肺部分割)。此外，医学扫描的背景通常是分散的(例如，超声扫描);因此，学习与背景对应的像素之间的全局上下文可以帮助模型防止误分类。我们将基于vit的分割方法大致分为器官特异性和多器官类别。

1）器官特异性

将特定器官分类为基于2D和3D的方法。

①2D

皮肤病灶分割：识别黑色素瘤(癌细胞)，但是边界模糊，为了解决模糊边界的问题，Wang等人(2021e)提出了一种新的边界感知变压器(BAT)。具体来说，他们在Transformer架构中设计了一个边界智能注意门，以利用关于边界的先验知识。边界注意门的辅助监督为有效训练BAT提供了反馈。提出了一种基于双编码器的特征自适应变压器网络(FAT-Net)，该网络由编码器中的CNN和变压器支路组成。为了有效地融合这两个分支的特征，设计了高效存储的译码器和特征自适应模块。

注之后使用的网络框架以及说明不会这么细了，因为实在是太多了，图片有时也不会提供，但是架构名字还是提供了，有的出现“……”则表示还有其他方法（我不想写了），如果要深入学习建议看原论文，不过原论文实在太多了，所以我简单书写下。有时翻译没注意写成了变压器或者变形金刚，其实就是Transformer。

牙根分割：由于模糊的边界和曝光过度和曝光不足的图像，提出了由变压器层和卷积层组成的组变压器UNet (GT UNet)，分别对全局和局部上下文进行编码，此外，在GT UNet中引入了分组和瓶颈结构，大大降低了计算成本。

心脏图像分割：transformer对训练的计算要求很高，并且具有很高的参数预算，所以提出ransBridge由transformer和基于cnn的编码器-解码器结构组成，用于超声心动图左心室分割。具体来说，Transformer的补丁嵌入层使用洗牌层(Zhang and Yang, 2021)和群卷积进行了重新设计，以显著减少参数数量。

肾肿瘤分割：由于不同的肾肿瘤大小和肿瘤及其解剖环境之间的差异，提出COTR-Net，它的编码器由几个卷积变压器块组成，解码器由几个上采样层组成，这些上采样层与编码器有跳过连接。编码器权重已经使用预训练的ResNet架构进行初始化，以加速收敛，并且在解码器层中利用深度监督来提高分割性能。此外，分割掩码细化使用形态学操作作为后处理步骤。但是这个模型不是很强。

细胞分割：由于受试者的运动导致边缘模糊，现有的医学成像分割方法通常难以识别角膜内皮细胞，要求保留更多的局部细节，并充分利用全局背景，提出了一种由卷积层和变压器层组成的多支路混合变压器网络(MBT-Net)。具体来说，他们提出了一个体边缘分支，提供精确的边缘位置信息，并促进局部一致性。

组织病理学说：对组织病理图像进行准确的自动分割可以大大减轻病理学家的工作量。由于能够对全局上下文进行编码，与基于cnn的方法相比，几乎所有基于transformer的模型都确实表现出优越的性能。

视网膜血管分割：1.CAViT-DAGC，该网络结合了通道注意视觉转换器(CAViT)和深度自适应伽马校正(DAGC)模块。CAViT模块由一个有效的通道注意模块和一个ViT模块组成。ECA模块分析特征通道之间的相互依赖关系，而ViT则通过关注全局上下文，从ECA模块加权的特征映射中提取重要的边缘结构。2.提出了基于viti的方法，该方法将变压器的远程特征提取和聚合能力与cnn的数据高效训练有效地结合起来。3太多了.……

②3D

脑肿瘤分割：1.通过在空间和深度维度上有效地建模局部和全局特征，首次尝试利用transformer进行3D多模态脑肿瘤分割。具体来说，他们的编码器-解码器架构TransBTS使用3D CNN提取局部3D体积空间特征，并使用transformer编码全局特征。在三维cnn解码器中采用渐进式上采样来预测最终的分割图。为了进一步提高性能，他们利用了测试时间的增加。有效但是不是最好，不过TransBTS不需要在大型数据集上进行预训练，并且从头开始训练。 2.提出相对较好的双变压器UNet (BiTrUNet)。 BiTr-UNet由一个注意力模块组成，用于细化编码器和解码器特征，并且具有两个ViT层(而不是TransBTS中的一个)。此外，BiTr-UNet采用后处理策略，如果体积小于阈值，则消除预测分割的体积，然后通过多数投票进行模型集成。 3.提出了一种轻型UNet形状的体积转换器VT-UNet，以分层方式分割3D医学图像模式。在VT-UNet的编码器中引入了两个自注意层来捕获全局和局部上下文。此外，在解码器中引入基于窗口的自注意和交叉注意模块以及傅里叶位置编码，显著提高了VT-UNet的精度和效率。 4.提出了基于Swin UNet的架构Swin UNETR，该架构由Swin变压器作为编码器和基于cnn的解码器组成，Swin UNETR是以一种高效的移位窗口划分方案计算自注意力。

组织病理学说：提出了用于高光谱病理图像分割的光谱转换器，利用变压器来学习跨光谱维度的上下文特征。为了丢弃不相关的光谱带，他们引入了一种基于稀疏性的方案。此外，他们对每个波段采用单独的组归一化，以消除光谱图像之间分布不匹配造成的干扰。下图为光谱转换器(spectrr)对高光谱病理数据集的分割结果。

乳腺肿瘤分割：提出了一种区域感知变压器网络(RAT-Net)，将乳腺肿瘤区域信息融合到多个尺度上，以获得精确分割。也有人提出在3D UNet的解码器部分提出了一种由变压器层组成的混合架构。

2）多器官类别

多器官分割的目的是同时分割多个器官，由于类间不平衡以及不同器官的大小、形状和对比度不同，由于ViT模型能够模拟全局关系并区分多个器官，纯transformer(仅ViT层)和混合架构(包括cnn和ViT层)

①纯transformer

在医学图像分割中应用较少，因为全局和局部信息对于分割等密集预测任务至关重要。但还是提出了一种纯基于transformer的3D医学图像分割模型，该模型利用3D医学图像patch相邻线性嵌入之间的自关注，是有效的。在分割中使用基于纯变换的模型的缺点之一是自关注相对于输入图像尺寸的二次复杂度。这阻碍了ViTs在高分辨率医学图像分割中的适用性。于是提出了Swin- unet。它在局部窗口内计算自注意力，并且相对于输入图像具有线性计算复杂度。swin - unet还包含一个补丁扩展层，用于上采样解码器的特征映射，与双线性上采样相比，在恢复精细细节方面表现出卓越的性能。

②混合架构

为了结合了transformer和cnn的互补优势，有效地建模全局上下文并捕获局部特征以进行准确分割，混合模型分为单尺度和多尺度方法。single-scale单尺度方法仅在一个尺度上处理输入的图像信息，与多尺度体系结构相比，其计算复杂度低。可以根据模型中Transformer层的位置对单尺度体系结构进行分类，有很多种类。

单尺度

transformer在编码器：这一类的第一个作品是TransUNet，它由编码器中的12个Transformer层组成，提出TransFuse通过BiFusion模块融合Transformer和CNN层的特征。BiFusion模块利用自关注和多模态融合机制来选择性地融合特征。引入了Swin UNETR，这是一种新颖的自监督学习框架，具有代理任务，用于在5,050张CT数据集图像上预训练Transformer编码器。他们在MSD和Synapse多器官分割数据集的下游任务上，通过微调Transformer编码器和基于cnn的解码器来验证预训练的有效性。

编码器和解码器之间的transformer：Transformer层位于u形架构的编码器和解码器之间，TransAttUNet ，它利用引导注意力和多尺度跳过连接来增强传统UNet的灵活性。

编码器和解码器中的transformer：很少有研究将Transformer层集成到u形结构的编码器和解码器中，以更好地利用全局上下文进行医学图像分割。不过UTNet 它有效地将自注意机制的复杂性从二次型降低到线性型。又提出了nnFormer，这是一种基于交错编解码器的架构，其中卷积层编码精确的空间信息，变压器层编码全局上下文。卷积和transformer是交互的。

Transformer在解码器：在UNet解码器中使用Transformer作为上采样块用于医学图像分割。它们采用基于窗口的自关注机制，在保持效率的同时更好地补充上采样特征映射。

多尺度

这些结构在多个尺度上处理输入，以分割形状不规则、大小不一的器官。分为基于输入图像类型的2D和3D分割类别。

2D：大多数基于vit的多器官分割方法很难在多个尺度上捕获信息，因为它们将输入图像分割成固定大小的小块，从而丢失了有用的信息。提出了一种金字塔式医疗变压器PMTrans来解决，它利用多分辨率注意力来捕获不同图像尺度上的相关性，使用金字塔结构。PMTrans在不改变自注意计算整体复杂度的情况下，通过自适应的小块分割方案来获取不同的感受域。提出了一种Multi-Compound transformer (MCTrans)，它不仅学习相同语义类别的特征一致性，还捕获不同语义类别之间的相关性，以实现准确的分割。MCTrans通过Transformer自注意模块捕获跨尺度上下文依赖，并通过Transformer交叉注意模块学习不同类别之间的语义对应。为了提高同一语义范畴的特征相关性，还引入了辅助损失。

3D：为了直接处理体积数据，提出了一种基于vit的3D医学图像分割架构(UNETR)。UNETR由一个纯变压器作为编码器来学习输入量的序列表示。编码器通过跳过连接连接到基于cnn的解码器，以计算最终的分割输出。但是计算量大，提出了一种计算效率高的可变形自关注模块，该模块使用多尺度特征将注意力只集中在一个小集合上，如图所示，以降低计算和空间复杂性。

3）结论

自第一个ViT模型成立以来，一年内有50多篇出版物，最近基于transformer的混合架构能够实现13%的性能提升。Avg:平均结果(超过12个器官)，AG:左右肾上腺，Pan:胰腺，Sto:胃，Spl:脾脏，Liv:肝脏，Gall:胆囊。

在多个层次提取特征的高计算成本阻碍了多尺度架构在医学分割任务中的适用性。这些多尺度架构利用了对输入图像信息的多层次处理，并取得了比单尺度架构更好的性能。目前，研究医学影像数据集的自监督预训练对ViTs分割性能影响的研究很少。在一种模式(CT)上预训练的ViT表现不理想，因为大的域间隙使其成为一个令人兴奋的探索途径。目前基于视觉视觉的方法主要集中在二维医学图像分割上。通过结合时间信息来设计定制的建筑组件以实现高效的高分辨率和高维分割的体图像尚未得到广泛的研究。同时需要收集更多样化和更具挑战性的医学成像数据集。

2.图像分类

将这些方法大致分类为基于COVID-19，肿瘤和视网膜疾病分类的方法，如下图

1）COVID-19

与繁琐的实时聚合酶链反应(RT-PCR)检测相比，放射成像可能更好地诊断COVID-19。简要介绍了vit在推进COVID-19诊断过程中自动图像分析方面的影响。这些工作大多使用三种方式，包括计算机断层扫描(CT)，超声扫描(US)和x射线。输入类型分为2D和3D。

①2D

由于计算成本高，影响了其在便携式设备上的部署，从而限制了其在COVID-19实时诊断中的适用性。提出了一种轻型点护理变压器(POCFormer)，用于从通过便携式设备捕获的肺部图像诊断COVID-19，………………。由于需要大量标记的COVID-19数据，基于vit的COVID-19诊断方法的研究进展受到严重阻碍。提出了一个联邦分裂任务不可知论(FESTA)框架，该框架利用了联邦和分裂学习的优点利用ViT同时处理多个胸部x射线任务，包括在大规模分散数据集上对COVID-19胸部x射线图像进行诊断。少数作者还展示了影响基于vit的COVID-19分类模型决策的特征，通常是通过可视化技术，如基于显著性的方法等………………。Mondal等人(2021)介绍了xViTCOS用于肺部CT和x射线图像的COVID-19筛查。在ImageNet上预训练xViTCOS以学习通用图像表示，并在大型胸片数据集上微调预训练模型。此外，xViTCOS利用可解释性驱动的基于显著性的方法和临床可解释的可视化来突出关键因素在最终预测中的作用。预测如下图

②3D

大多数是2D信息，为了同时利用2D和3D信息，提出了一个由变压器和cnn组成的混合网络。他们以Swin Transformer为骨干网络，通过Wilcoxon sign -rank检验(Woolson, 2007)确定CT扫描中显著症状的重要性。为了进一步利用空间和时间维度的内在特征，他们提出了一个卷积CT扫描感知变压器模块，以充分捕捉3D扫描的上下文，………………

2）肿瘤分类

肿瘤是身体组织的异常生长，可以是癌性(恶性)或非癌性(良性)。

肺脏：其他作品也采用了Transformer-CNN混合架构来解决不同器官的医学分类问题。提出了Gene-Transformer来预测肺癌亚型。

大脑：提出了一个两阶段的框架，首先对大脑中的胶质瘤亚型分类进行对比预训练，然后通过提出的基于变压器的稀疏注意模块进行特征聚合，实验有效。

乳腺：Gheflati和Rivaz(2021)系统地评估了纯预训练ViT模型和混合预训练ViT模型的性能。基于vit的模型在将图像分为良性、恶性和正常三类方面的效果优于cnn。

腹部：介绍一种多尺度胃电变换器用于胃癌的诊断。GasHis-Transformer结合了cnn和ViTs的优点，分别提取局部和全局信息。

混杂的：由于标注过程昂贵且费力，在基于全切片成像(WSI)的病理诊断中，一个标签分配给一组实例(袋)。这种弱监督学习被称为多实例学习(Fung et al.， 2007)，其中如果至少有一个实例是正的，则标记为正的;如果袋子中的所有实例都是负的，则标记为负的。目前的大多数MIL方法都假设每个包中的实例是独立且同分布的，从而忽略了不同实例之间的相关性。提出TransMIL…………

3）视网膜疾病分类

提出了MIL-ViT模型，该模型首先在大型眼底图像数据集上进行预训练，然后在视网膜疾病分类的下游任务上进行微调。MIL-ViT架构使用基于mil的磁头，可以与ViT一起以即插即用的方式使用。大多数数据驱动的方法将糖尿病视网膜病变(DR)分级和病变发现作为两个独立的任务，这可能是次优的，因为误差可能从一个阶段传播到另一个阶段。为了共同处理这两项任务，提出了病变感知变压器(LAT)，该变压器由基于像素关系的编码器和病变感知变压器解码器组成。

4）结论

概述约25篇与ViTs在医学图像分类中的应用相关的论文，用于诊断COVID-19的基于transformer的架构激增。由于缺乏大型COVID-19数据集，阻碍了ViT模型在COVID-19诊断中的适用性。最近的一项工作试图通过结合三个开源COVID-19数据集来创建包含30,000张图像的大型数据集来缓解这一问题。

大多数作品都使用原始的ViT模型作为即插即用的方式来提高医学图像分类性能。认为集成特定于领域的上下文并相应地设计架构组件和损失函数可以提高性能，并为未来设计有效的基于vita的分类模型提供更多见解。

首次证明了在ImageNet上预训练的ViTs在医学图像分类任务中的表现与cnn相当，在医学图像分类问题上，他们的模型比在ImageNet上预训练的ViT模型获得了实质性的性能提升。

3.医疗目标检测

目标检测是指从x射线图像中定位和识别感兴趣区域(roi)，继cnn在医学图像检测方面的成功之后，最近很少有人尝试使用Transformer模型进一步提高性能。不过还是提出了第一个混合框架COTR，由卷积层和变压器层组成，用于端到端息肉检测，COTR的编码器包含六个混合卷积-变换层来编码特征。解码器由六个用于对象查询的变压器层和一个用于对象检测的前馈网络组成。………………

结论

基于transformer的医学图像检测新方法的使用频率低于基于分割和分类的方法。这与早期基于cnn的设计形成鲜明对比，后者在医学图像检测方面得到了迅速发展。最近的一项工作表明，在自然图像-文本对上预训练的多模态vit(如MDETR (Kamath等人，2021))的通用分类无关检测机制在医疗数据集上表现不佳。

4.医学图像恢复

是从退化的输入中获得干净的图像，vit已被证明可以有效地解决这些挑战。我们将相关工作分为医学图像增强和医学图像构建两个领域。如下图

1）图像增强

vit在这里是成功的，主要是在低剂量计算机断层扫描(LDCT)的应用中。在LDCT中，减少x射线剂量以防止患者暴露在高辐射下。然而，这种减少是以CT图像质量下降为代价的，需要有效的增强算法来提高图像质量，从而提高诊断的准确性。分为LDCT增强和LDPET增强。

LDCT增强：提出了一种混合结构TransCT，利用LDCT图像的内部相似性来增强它们。TransCT首先将LDCT图像分解为高频(HF)(含噪声)和低频(LF)部分。然后利用潜在纹理去除高频部分的噪声。为了重建最终的高质量LDCT图像，TransCT进一步将LF部分的特征整合到变压器解码器的输出中。Luthra等人(2021)提出了Eformer，这是一种基于transformer的LDCT图像去噪残差学习架构，效果不错。

LDPET增强：与LDCT一样，低剂量正电子发射断层扫描(LDPET)图像以牺牲诊断准确性为代价，减少了标准剂量PET (SDPET)的有害辐射暴露。提出了一种基于端到端生成对抗网络(GAN)的方法，即Transformer-GAN，该方法集成了Transformer-GAN，从相应的LDPET图像中有效地重建SDPET图像。

2）图像构建

需要将采集硬件(如MRI扫描仪)收集的信号转换为可用于诊断和治疗计划的可解释图像。基于vit的模型被提出用于多种医学图像恢复任务，包括欠采样MRI恢复、稀疏视图CT图像重建和内镜视频重建。

①欠采样MRI恢复

减少MRI测量次数可以加快扫描时间，减少由于患者运动而导致的伪影，但代价是图像中的伪影混叠。有两种方法高数据机制方法和低数据机制方法。

高数据机制方法：这类方法假设有大型MRI训练数据集来训练ViT模型。提出了基于Transformer的MTrans架构，用于加速多模态磁共振成像。MTrans的主要组成部分是交叉注意模块，它将辅助模态的互补特征提取并融合到目标模态中。然而，MTrans需要对MR重建和超分辨率任务进行单独的训练。为了联合重建和超分辨率MRI图像，Feng等人(2021b)提出了Task-Transformer，利用多任务学习的力量融合重建分支和超分辨率分支之间的互补信息。同样，Mahapatra和Ge(2021)提出了一种混合架构，通过利用cnn和ViTs的互补优势来超分辨率MRI图像。

低数据机制方法：为了缓解数据需求问题，提出了一个零射击框架SLATER，该框架利用随机初始化神经网络诱导的先验(Ulyanov等人，2018;Qayyum等人，2021)用于无监督MR图像重建。

②稀疏视图CT重建

稀疏视图CT 可以通过获取较少的投影来降低有效辐射剂量。然而，投影数量的减少需要复杂的图像处理算法来实现高质量的图像重建。有人通过考虑sinogram采样过程的全局性，提出了一种名为Dual-Domain Transformer (DuDoTrans)的CNN-Transformer混合算法，以更好地恢复高质量的图像。第一步，DuDoTrans通过滤波后的反投影步骤和可学习的DuDo一致性层重建低质量的正弦图重建。在第二步中，残差图像重建模块执行增强以产生高质量的图像。

③内窥镜视频重建

由于手术工具遮挡和摄像机视点的变化，从立体视频重建手术场景具有挑战性。提出E-DSSR包含一个轻量级的立体Transformer模块，用于高置信度估计深度图像(Poggi et al.， 2021)，以及一个分割器网络，用于准确预测手术工具的面罩。

3）结论

预训练ViT对MRI图像重建任务的影响。他们的结果表明，预训练的ViT产生尖锐的重建，并且对解剖位移具有鲁棒性。与在ImageNet上预训练的vit相比，在医学图像数据集上预训练的vit在重建性能和抗解剖位移的鲁棒性方面是否能够提供任何优势?在一种图像模式(如CT)上预训练的ViT和在另一种模式(如MRI)上微调对图像重建任务的性能的影响。

大多数基于transformer的方法都集中在MRI和CT图像重建任务上，它们对其他模式的适用性还有待探索。此外，所建议的体系结构大多是通用的，并没有充分利用特定于应用程序的方面。

使用transformer层架构来正则化从低采样测量中重建MRI图像的挑战性问题，因为它们不需要标记的训练数据。

5.医学图像合成

尽管以训练不稳定性为代价，但这些方法中的大多数都采用对抗损失来合成逼真的高质量医学图像。将这些方法分为模态内合成和模态间合成。

1）模态内合成

目标是将相同模态的质量相对较低的输入图像生成质量更高的图像。

监督方法：需要对源图像和目标图像进行配对来训练基于vit的模型。由于标注成本和时间的限制，配对数据难以获得，从而普遍阻碍了这些模型在医学成像应用中的适用性。通过设计了一种新的多分辨率金字塔状UNet框架PTNet，利用表演者编码器、表演者解码器和变压器瓶颈来合成高质量的婴儿MRI。

半监督方法：需要少量标记数据和大量未标记数据来训练模型，提出了一种使用ViT作为判别器的多尺度条件生成对抗网络(GAN) 。

无监督的方法：提出了一种循环一致的生成对抗转换器(CyTran)，用于将未配对的对比CT扫描转换为非对比CT扫描，并将对比CT扫描的体积图像配准转换为非对比CT扫描。为了处理高分辨率CT图像，他们提出了混合卷积和基于多头注意力的架构，就是下面这个图。

2）模态间合成

目的是综合目标，在不同模态的源图像中捕获有用的结构信息。例子包括CT到MRI的转换，由于与多式联运翻译相关的挑战，只有监督方法被探索。引入了一种新的综合方法ResViT，用于基于条件深度对抗网络的多模态成像，该网络具有基于vit的生成器。具体来说，ResViT结合了视觉变换对全局上下文的敏感性和cnn的定位能力。此外，利用对抗性损失来保持生成图像的真实感。瓶颈包括新的聚合剩余变压器块，以协同保存局部和全局上下文，并采用权重共享策略以最小化模型复杂性。

3）结论

因为在许多实际应用中，由于成本和隐私问题，需要某种模态，但无法获得。例如，在CT上进行骨分割很容易，因此将MR转换为CT可以使用CT上现有的架构进行间接骨分割。最近基于变压器的方法可以帮助实现这一目标，因为它们能够生成比基于gan的方法更真实的图像。大多数基于transformer的医学图像合成方法使用对抗损失来生成逼真的图像。

6.医学图像配准

目的是寻找密集的每体素位移，并在一对固定图像和运动图像之间建立对齐。在医学成像中，当分析在不同时间、从不同角度或使用不同模式(如MRI和CT)获得的一对图像时，可能需要进行配准

结论

首次提出了使用transformer进行自监督医学体积图像配准的研究。他们的模型vitv - v - net由卷积层和变换层组成的混合架构组成。具体来说，vit应用于通过一系列卷积和最大池化层提取的固定和运动图像的高级特征。然后使用V-Net风格的解码器对ViT的输出进行重塑和解码。为了有效地传播信息，ViT-V-Net在编码器和解码器之间使用了长跳过连接。v - v - net解码器的输出是密集位移场，该位移场被馈送到空间变压器网络进行翘曲。………………

transformer在医学图像配准中的应用尚处于初级阶段

7.临床报告生成

自动报告生成过程可以帮助临床医生做出准确的决策。然而，由于不同放射科医生报告的多样性、较长的序列长度(与自然图像标题不同)和数据集偏差(正常数据多于异常数据)，从医学成像数据生成报告(或标题)是具有挑战性的。一个有效的医疗报告生成模型需要处理两个关键属性:(1)语言流畅性，以提高人类的可读性;(2)临床准确性，以正确识别疾病及其相关症状。实现重点是将转换器作为强大的语言模型来利用远程依赖关系生成句子。分类为RL和监督学习，如下图

1）强化学习RL

基于rl的医学报告生成方法可以直接使用感兴趣的评价指标(如人类评价、相关医学术语等)作为奖励，并通过策略梯度更新模型参数。

首次尝试将transformer整合到临床报告生成中。他们提出了用于医学图像字幕(RTMIC)的强化transformer，该transformer由一个预训练的DenseNet (Huang等人，2017a)组成，用于从输入的医学图像中识别感兴趣的区域，然后是一个基于transformer的编码器来提取视觉特征。这些特征作为字幕解码器的输入来生成句子。在IU胸部x射线数据集的训练过程中，所有这些模块都通过自批判强化学习方法进行更新。

手术说明书生成：提出了一种从手术场景中生成指令的transformer模型。缺乏预定义的模板，如在医疗报告生成的情况下，使得生成手术指令是一项具有挑战性的任务。提出的模型是一种基于编码器-解码器的架构，该架构带有变压器主干，可以有效地对视觉特征、文本特征和视觉纹理关系特征的依赖关系进行建模。特别是，它们的架构通过自我批判强化学习进行优化。

2）监督和非监督方法

使用可微损失函数来训练医学报告生成模型，并且不通过代理与环境交互，分为关注数据集偏差、可解释性、特征对齐和其他类别的方法。其他类别方法不想写了……

数据集偏差：因为描述正常情况的句子远远多于描述异常情况的句子，提出了一种使用变压器作为解码器的分层分类方法。转换器解码器利用从报告、图像和标记中获得的特性之间和之间的注意力来有效地生成报告。该体系结构包括异常检测网络(abnormal Detection Network)，用于对正常和异常图像进行分类;标签分类网络(Tag Classification Net)，用于根据图像生成标签;报告生成网络(Report Generation Net)，以图像特征和标签作为输入生成最终报告。………………

特征对齐：关注医学图像和相应文本的编码表示的准确对齐，这对于跨模式(这里的图像和文本)的交互和生成以及随后的准确报告生成至关重要，如下图。提出了一种跨模态记忆网络，以增强基于变压器的编码器-解码器模型，用于放射学报告生成。他们设计了一个共享存储器，以促进医学图像和文本特征之间的对齐。………………

可解释性：可解释性对于提高在临床环境中部署模型的可信度至关重要，也是提取病灶定位边界框的一种方法。利用注意力来识别输入图像中感兴趣的区域，并演示模型在最终文本中关注的位置。这种注意机制增加了临床环境中使用的黑盒模型的可解释性，并提供了一种提取疾病定位边界盒的方法。具体来说，他们提出了RATCHET变压器模型，通过使用DenseNet-101 作为图像特征提取器来生成报告。RATCHET由一个基于变压器的rnn解码器组成，用于生成胸片报告。他们评估模型的自然语言技能和生成报告的医学正确性。………………

3）结论

本节提供了transformer在x射线图像生成临床报告中的应用的全面概述。本节主要关注transformer作为强大的语言模型。尽管transformer自2017年问世以来产生了惊人的影响，但这些都没有涵盖transformer模型在该领域的应用。

基于transformer的报告生成模型主要依赖于自然语言生成(NLG)评估指标，如CIDEr和BLEU来评估性能，但目前还是有人研究新的评价指标。

本节介绍的所有基于transformer的方法都使用x射线模式来自动生成报告。与x射线扫描相比，从MRI或PET等其他模式生成报告具有自身的挑战，因为这些3D传感方法的性质更复杂，而x射线扫描是3D的2D投影。同时很少有医疗数据集由多种模式、不同的身体部位和相应的标题组成。

8.其他应用

生存结果预测、视觉问题回答和医学点云分析。生存预后预测是一项具有挑战性的回归任务，旨在预测癌症死亡的相对风险。等等谁做了什么研究………………

四、开放挑战和未来方向

主要讨论在大型数据集上进行预训练的挑战，基于viti的医学成像方法的可解释性，对对抗性攻击的鲁棒性，为实时医疗应用设计有效的ViT架构，在分布式设置中部署基于viti的模型的挑战，以及领域适应。

1.预训练的挑战

由于局部视觉特征建模缺乏固有的归纳偏差，vit需要通过大规模训练数据集(Dosovitskiy通过ImageNet预训练)的预训练来自己找出特定于图像的概念，这可能是次优的，因为医学图像和自然图像之间的图像特征存在巨大差异。

①当使用随机权重初始化时，cnn在医学图像分类任务中的表现优于ViTs。

②vit似乎从迁移学习中受益更多因为它们弥补了使用随机初始化观察到的差距，表现与CNN相当

③cnn和ViTs在使用DINO和BYOL 等自监督预训练方法时表现更好。在这种医学图像分类设置中，vit似乎比cnn表现得更好。

尽管最近基于viti的数据高效方法，但以数据高效的方式学习这些针对特定领域医学成像应用量身定制的变压器模型的任务是具有挑战性的。然后有人做了来减少负面影响………………减少负面效果还达到了不错的结果如下图。

此外，cnn最近的研究表明，与仅在ImageNet上进行预训练相比，在ImageNet和医疗数据集上进行自监督预训练可以提高模型在分布移位医疗数据集上的泛化性能(用于分类)。这种基于viti模型的研究，以及利用患者元数据的多实例对比学习(Vu et al.， 2021)，将为社区提供进一步的见解。同样，在医学成像应用的vit背景下，结合自监督和半监督预训练也是一个有趣的探索途径

2.可解释性

在大多数医学成像应用中，ViT模型被部署为块盒，因此无法提供见解并解释其学习行为以进行预测。vit的这种黑箱性质阻碍了它们在临床实践中的部署，因为在医疗应用等领域，必须确定设计系统的局限性和潜在故障案例，其中可解释性起着根本作用。虽然有些人做了一些工作，但是还是没做到好的解释。此外，还必须解决基于可解释vit的医学成像系统的形式化、挑战、定义和评估协议。vit提供了一个清晰的、局部的注意力图像，因此可以深入了解模型如何做出决策。下图

3.对抗性攻击的鲁棒性

对抗性攻击的进展揭示了现有的基于学习的医学成像系统在面对输入图像中难以察觉的扰动时的脆弱性。目前还没有针对vit的研究，这是一个令人兴奋又具有挑战性的探索方向。保证系统安全。可以总结为vit比cnn对对抗性攻击更健壮。然而，这些健壮的ViT模型不能直接用于医学成像应用，因为医学图像中的模式和纹理的种类和类型与自然领域有很大不同。因此，在医学成像环境中，评估vit对对抗性攻击的稳健性的原则方法，可以作为在临床环境中部署这些模型的关键模型，为恢复能力奠定基础。

4.实时医疗应用设计有效的ViT架构

对内存和计算的强烈要求阻碍了各种transformer在资源受限的边缘设备上的部署。由于vit的卓越性能，我们认为迫切需要为边缘设备量身定制的领域优化架构设计。它可以对基于医学成像的医疗保健应用程序产生巨大影响，在这些应用程序中，按需洞察力可以帮助团队做出关于患者的关键和紧急决策。

5.分布式设置中部署基于viti的模型的挑战

存在的问题为数据问题，基于深度学习的医学成像模型高度依赖于训练数据的数量和多样性，由于严格的隐私法规、某些疾病的低发病率、数据所有权问题以及患者数量有限，单个机构可能无法获得训练可靠和健壮模型所需的培训数据。因此联邦学习(FL)已被提出，以促进多医院协作，同时避免数据传输。尽管存在大量的方法来解决基于cnn的医学成像应用的FL，但对于vit来说，这项工作仍处于起步阶段，需要进一步关注。提出了一个联邦分裂任务不可知论(FESTA)框架。我们相信分布式机器学习框架的成功实施与vit的优势相结合，可以为大规模实现精准医疗提供巨大的潜力。这可能导致ViT模型产生公正的决策，对罕见疾病敏感，同时尊重治理和隐私问题。

6.领域适应

基于vit的医学成像系统主要集中在提高精度上，缺乏一种原则性的机制来评估其在不同分布/域转移下的泛化能力。最近的研究表明，测试误差通常与训练数据集和测试数据集之间的分布差异成比例地增加，从而使其成为vit背景下研究的关键问题。在医学成像应用中，这些数据的分布变化是由几个因素引起的，包括:在不同的医院使用不同的设备模型获得的图像，训练数据集中没有出现的一些看不见的疾病的图像，不正确准备的图像等。同时框架性能一般是在原来的公共数据集上进行验证。现在需要进一步的研究来设计基于vit的医学成像系统，该系统应该对训练期间看到的类别准确，同时为异常和未看到的类别提供校准的不确定性估计。

五、结果和总结

1.结果

vit已经渗透到医学成像的各个领域，简要讨论transformer相对于cnn的主要优势。

多模式:数字健康数据不仅限于成像模式，还可以从其他来源获得，包括电子健康记录、基因库、患者家族史等。变压器处理多模态输入的固有能力有助于它们在与模态无关的管道中工作，并以最小的架构修改获得大量多模态医疗数据的能力。

可扩展性:尽管有大量多模态数据的潜力，但扩展机器学习模型以合并多种模态可能具有挑战性。传统的多模态骨干网的训练负荷随着模态数量的增加而增加，因为骨干网通常由模态特定的子模型组成。而Transformer模型使用单个模型同时处理所有的模态，这大大减少了训练负荷。

临床系统：它可以有效地对多种模式进行编码，并系统地将信息安排在短期(快速适应)和长期(缓慢适应)的知识库中，并具有专用的控制器功能来调节信息交换，同时保留由人类专家在狭窄的智能任务上开发的专家指南。

2.总结

我们提出了第一个全面的应用transformer在医学成像。我们简要介绍了变压器模型成功背后的核心概念，然后在广泛的医学成像任务中提供变压器的全面文献综述。具体来说，我们研究了transformer在医学图像分割、检测、分类、重建、合成、配准、临床报告生成等任务中的应用。特别是，对于这些应用程序中的每一个，我们都开发了分类，确定了特定于应用程序的挑战，并提供了解决这些挑战的见解，并指定了最近的趋势。尽管它们的表现令人印象深刻，但我们预计在医学成像方面，变形金刚还有很多探索要做，我们希望这项调查能为研究人员提供进一步发展这一领域的路线图。我们还建议在顶级计算机视觉和医学成像会议上组织相关研讨会，并在知名期刊上安排专刊，以便将相关研究迅速传播到医学成像界。