LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching
Duy M. H. Nguyen
∗
1
,
2
,
3
, Hoang Nguyen
3
, Nghiem T. Diep
3
, Tan N. Pham
3
,
4
, Tri Cao
3
,
Binh T. Nguyen
4
, Paul Swoboda
5
, Nhat Ho
6
, Shadi Albarqouni
7
,
8
, Pengtao Xie
9
,
10 ,Daniel Sonntag
†
3
,
11
, Mathias Niepert
∗ †
1
,
2
1
University of Stuttgart,
2 IMPRS for Intelligent Systems 3
German Research Center for Artificial Intelligence,
4University of Science - VNUHCM, 5
Max Planck Institute for Informatics,
6
University of Texas at Austin
7Helmholtz Munich, 8
University Hospital Bonn,
9
UC San Diego,
10
MBZUAI,
11
Oldenburg University
整体理解下来,将大量无标签的数据通过两种变化,转换成了有监督的数据,然后对生成的特征进行self-supervised learning,去指导特征提取器的更新,其中关键点在于,提取的特征之间如何构造新的方法——二阶图匹配,去进行训练,提取出来的特征,全局,局部信息如何利用起来,同时也涉及到了梯度传播的问题。
大规模医学成像数据集:研究人员收集了约130万张医学图像,来自55个公开数据集,涵盖多种器官和成像方式(CT、MRI、X射线、超声等)。
集成了基于局部和全局信息的先验成对图像相似度指标;
通过组合图匹配目标构造的损失函数捕获特征嵌入的结构约束;
用梯度估计对黑盒求解器进行端到端有效训练。
模型流程参考:
模型流程: 特征提取: 对于每张图像,应用两种随机变换(例如旋转、裁剪),生成两个变形后的图像。
图构建: 使用变形后的图像的feature embedding来构建两个图(Graphs),每个图的节点代表变形后的图像。
图匹配: 通过解决图匹配问题,学习特征表示,使得它们的编码为图匹配目标的全局解提供合适的先验。
实例:
(SSL)模型LVM-Med的预训练过程。以下是详细的步骤和组成部分的解释:
### 使用的模型和数据集
- **Resnet50** 和 **Vision Transformer (ViT-B/16)** 被用于训练LVM-Med模型。
- 对于Resnet50,加载了在ImageNet-1K数据集上预训练的权重。
- 对于ViT,加载了SAM编码器骨干网络的权重。
### 数据增强
- 原始图像通过多重裁剪技术被增强到两个不同的视图。
- 接下来,应用了概率为50%的翻转、颜色抖动、随机高斯模糊和归一化处理。
### 训练过程
- LVM-Med在收集的数据集上训练了100个周期。
- 对于使用ResNet50的训练,设置了3200的批次大小,而对于ViT,由于内存限制,批次大小减少到了2800。
- 使用Adam优化器进行模型优化,初始学习率设置为 \(2 \times 10^{-3}\),并在训练过程中减半四次。
- 使用16个具有80GB内存的A100-GPUs进行训练,用ResNet-50训练LVM-Med需要五天,用ViT编码器需要七天。
### 竞争对手方法
- 与LVM-Med相比较的其他SSL方法(如VicRegl、Twin-Barlon、Dino等)也是从在ImageNet-1K上预训练的ResNet-50初始化的,并用默认设置训练了100个周期。
### 数据平衡
- 为了在不同模态之间平衡样本,结合了过采样和数据增强来增加总样本数。
- 通过复制图像并应用随机裁剪操作(覆盖85-95%的图像区域)来生成少数类的新样本,并且将它们缩放回原始分辨率。
- 注意,这些增强不用于自我监督算法中的变换(操作 \(s, t \sim T\)),以避免在采样过程中生成完全相同的扭曲版本。
总结来说,这个预训练过程包括了从已有的预训练模型开始,通过一系列数据增强技术来处理图像,并且通过使用最新的硬件资源进行了大规模的训练。此外,作者采用了一些策略来管理内存限制和数据不平衡问题,并且确保在自我监督学习中不会产生对图像同样处理的问题。