Transformer-Based End-to-End Classification of Variable-Length Volumetric Data
摘要
在自动分类3D医学数据时,内存占用问题和样本切片数量的差异是两个主要挑战。传统的解决方案如子采样虽然能解决这些问题,但可能会丢失重要的诊断信息。Transformer在序列数据分析中显示了良好的性能,但其在处理长序列时,数据、计算和内存需求都非常高。本文提出了一种基于Transformer的端到端框架,能够高效分类可变长度的体数据。
-
输入数据随机化:
- 在训练过程中,通过随机化输入的体数据分辨率(即切片数量),增强了分配给每个体数据切片的可学习位置嵌入的能力。
- 这样做的目的是使每个位置嵌入中累积的位置信息能够泛化到相邻切片,甚至在测试时对高分辨率体数据也适用。
-
模型结构:
- 使用Transformer编码器对随机化后的体数据进行编码,从而捕捉数据中的全局和局部特征。
- 分类头部分基于编码器的输出进行分类,可以是全连接层或卷积层,具体取决于任务需求。
-
训练和推理:
- 通过在训练期间变化输入的体数据分辨率,使模型对可变体数据长度更具鲁棒性,并能适应不同的计算预算。
在视网膜OCT体数据分类任务中进行了评估。实验结果显示,本文提出的方法在9类诊断任务中的平衡准确率平均提高了21.96%,相对于最新的视频Transformer方法具有显著优势。我们的研究表明,在训练过程中变化输入的体数据分辨率,能够生成比使用固定切片数量训练时更具信息量的体数据表示。
本文提出的基于Transformer的端到端分类框架,能够高效处理可变长度的体数据,显著提高分类性能。这种方法不仅增强了模型对体数据长度变化的适应能力,也展示了其在实际医学图像分类任务中的广泛应用潜力。
模型代码和相关资源将在论文发布后提供,以供学术界和工业界进一步研究和应用。
方法
图1展示了本文提出的基于Transformer的3D体数据分类方法的整体结构。该方法通过共享的切片特征提取器(SFE)处理输入切片,并在每个epoch更新切片数量和位置嵌入(PEs)序列
实验结果