LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging

LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching

Duy M. H. Nguyen 1 , 2 , 3 , Hoang Nguyen 3 , Nghiem T. Diep 3 , Tan N. Pham 3 , 4 , Tri Cao 3 , Binh T. Nguyen 4 , Paul Swoboda 5 , Nhat Ho 6 , Shadi Albarqouni 7 , 8 , Pengtao Xie 9 , 10 ,Daniel Sonntag 3 , 11 , Mathias Niepert ∗ † 1 , 2
1 University of Stuttgart, 2 IMPRS for Intelligent Systems 3 German Research Center for Artificial Intelligence, 4University of Science - VNUHCM, 5 Max Planck Institute for Informatics, 6 University of Texas at Austin 7Helmholtz Munich, 8 University Hospital Bonn, 9 UC San Diego, 10 MBZUAI, 11 Oldenburg University
整体理解下来,将大量无标签的数据通过两种变化,转换成了有监督的数据,然后对生成的特征进行self-supervised learning,去指导特征提取器的更新,其中关键点在于,提取的特征之间如何构造新的方法——二阶图匹配,去进行训练,提取出来的特征,全局,局部信息如何利用起来,同时也涉及到了梯度传播的问题。
大规模医学成像数据集:研究人员收集了约130万张医学图像,来自55个公开数据集,涵盖多种器官和成像方式(CT、MRI、X射线、超声等)。
集成了基于局部和全局信息的先验成对图像相似度指标;
通过组合图匹配目标构造的损失函数捕获特征嵌入的结构约束;
用梯度估计对黑盒求解器进行端到端有效训练。
模型流程参考:
模型流程: 特征提取: 对于每张图像,应用两种随机变换(例如旋转、裁剪),生成两个变形后的图像。
图构建: 使用变形后的图像的feature embedding来构建两个图(Graphs),每个图的节点代表变形后的图像。
图匹配: 通过解决图匹配问题,学习特征表示,使得它们的编码为图匹配目标的全局解提供合适的先验。
实例:

(SSL)模型LVM-Med的预训练过程。以下是详细的步骤和组成部分的解释:

### 使用的模型和数据集
- **Resnet50** 和 **Vision Transformer (ViT-B/16)** 被用于训练LVM-Med模型。
- 对于Resnet50,加载了在ImageNet-1K数据集上预训练的权重。
- 对于ViT,加载了SAM编码器骨干网络的权重。

### 数据增强
- 原始图像通过多重裁剪技术被增强到两个不同的视图。
- 接下来,应用了概率为50%的翻转、颜色抖动、随机高斯模糊和归一化处理。

### 训练过程
- LVM-Med在收集的数据集上训练了100个周期。
- 对于使用ResNet50的训练,设置了3200的批次大小,而对于ViT,由于内存限制,批次大小减少到了2800。
- 使用Adam优化器进行模型优化,初始学习率设置为 \(2 \times 10^{-3}\),并在训练过程中减半四次。
- 使用16个具有80GB内存的A100-GPUs进行训练,用ResNet-50训练LVM-Med需要五天,用ViT编码器需要七天。

### 竞争对手方法
- 与LVM-Med相比较的其他SSL方法(如VicRegl、Twin-Barlon、Dino等)也是从在ImageNet-1K上预训练的ResNet-50初始化的,并用默认设置训练了100个周期。

### 数据平衡
- 为了在不同模态之间平衡样本,结合了过采样和数据增强来增加总样本数。
- 通过复制图像并应用随机裁剪操作(覆盖85-95%的图像区域)来生成少数类的新样本,并且将它们缩放回原始分辨率。
- 注意,这些增强不用于自我监督算法中的变换(操作 \(s, t \sim T\)),以避免在采样过程中生成完全相同的扭曲版本。

总结来说,这个预训练过程包括了从已有的预训练模型开始,通过一系列数据增强技术来处理图像,并且通过使用最新的硬件资源进行了大规模的训练。此外,作者采用了一些策略来管理内存限制和数据不平衡问题,并且确保在自我监督学习中不会产生对图像同样处理的问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值