卷积神经网络(CNN)在医学图像分析任务中表现出了非常有竞争力的性能,例如疾病分类、肿瘤分割和病灶检测。 CNN在提取图像局部特征方面具有很大的优势。然而,由于卷积运算的局部性,它不能很好地处理长程关系。
多模态医学图像具有明确且重要的长程依赖性,有效的多模态融合策略可以极大地提高深度模型的性能。
多模态医学图像是指通过不同的采集方法或成像技术,获取的不同类型的医学图像。
现有的基于 Transformer 的网络架构需要大规模数据集才能实现更好的性能。然而,医学成像数据集相对较小,这使得将纯 Transformer 应用于医学图像分析变得困难。
1. 介绍
TransMed 结合了 CNN 和 Transformer 的优点,可以有效地提取图像的低级特征并建立模态之间的远程依赖关系。我们在两个数据集(腮腺肿瘤分类和膝盖损伤分类)上评估了我们的模型。
将 Transformer 应用于计算机视觉任务的方法。与文本相比,图像涉及更大的尺寸、噪声和冗余模态。人们提出了大量基于 Transformer 的方法,例如用于目标检测的 DETR [2]、用于语义分割的 SETR [3]、用于图像分类的 ViT [4] 和 DeiT [5]。
现有的基于深度学习的医学图像多模态融合可以分为三类:
输入级融合、特征级融合和决策级融合。
输入级融合策略将多模态图像通过多通道融合到深度网络中,学习融合特征表示,然后训练网络。输入级融合可以最大程度地保留原始图像信息并学习图像特征。但是难以建立同一患者不同模态之间的内部关系,从而导致模型性能下降。
特征级融合策略通过将每种模态的图像作为单个输入来训练单个深度网络。每个表示在网络层进行融合,最终结果被馈送到决策层以获得最终结果。特征级融合网络可以有效捕获同一患者不同模态的信息。但是每种模态都对应一个神经网络,这带来了巨大的计算成本,特别是在模态数量较多的情况下。
决策级融合将各个网络的输出进行整合,得到最终结果。决策级融合网络旨在独立地从不同模态学习更丰富的信息。但是每种模态的输出是相互独立的,因此该模型无法建立同一患者不同模态之间的内在关系。决策级融合策略也是计算密集型的。
与 CNN 相比,Transformers 可以有效地挖掘序列之间的长程关系。现有的基于Transformer的计算机视觉模型主要处理2D自然图像,如ImageNet[7]等大规模数据集。在二维图像中构造序列的方法是将图像切割成一系列的块。这种序列构造方法隐式地展现了远程依赖关系,不是很直观,因此可能很难带来显着的性能提升。
而医学图像中有更明确的序列,其中包含重要的长程依赖性和语义信息。由于人体器官的相似性,大多数视觉表示在医学图像中都是有序的。破坏这些序列将显着降低模型的性能。与自然图像相比,医学图像的序列关系(如模态、切片、块)保存了更丰富的信息。
1.1 TransMed
它结合了 CNN 和 Transformer 的优点来捕获低级特征和跨模态高级信息。TransMed 首先将多模态图像处理为序列并将其发送到 CNN,然后使用 Transformer 来学习序列之间的关系并进行预测。由于Transformer有效地对多模态图像的全局特征进行建模,TransMed在参数、运算速度和准确性方面优于现有的多模态融合方法。多模态医学图像具有更多信息序列。