LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging

最新推荐文章于 2024-06-07 09:41:29 发布

weixin_41749533

最新推荐文章于 2024-06-07 09:41:29 发布

阅读量131

点赞数

分类专栏： paper 文章标签：人工智能深度学习计算机视觉算法

原文链接：https://arxiv.org/abs/2306.11925

版权

paper 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching

Duy M. H. Nguyen ∗ 1 , 2 , 3 , Hoang Nguyen 3 , Nghiem T. Diep 3 , Tan N. Pham 3 , 4 , Tri Cao 3 , Binh T. Nguyen 4 , Paul Swoboda 5 , Nhat Ho 6 , Shadi Albarqouni 7 , 8 , Pengtao Xie 9 , 10 ,Daniel Sonntag † 3 , 11 , Mathias Niepert ∗ † 1 , 2

1 University of Stuttgart, 2 IMPRS for Intelligent Systems 3 German Research Center for Artificial Intelligence, 4University of Science - VNUHCM, 5 Max Planck Institute for Informatics, 6 University of Texas at Austin 7Helmholtz Munich, 8 University Hospital Bonn, 9 UC San Diego, 10 MBZUAI, 11 Oldenburg University

整体理解下来，将大量无标签的数据通过两种变化，转换成了有监督的数据，然后对生成的特征进行self-supervised learning，去指导特征提取器的更新，其中关键点在于，提取的特征之间如何构造新的方法——二阶图匹配，去进行训练，提取出来的特征，全局，局部信息如何利用起来，同时也涉及到了梯度传播的问题。

大规模医学成像数据集：研究人员收集了约130万张医学图像，来自55个公开数据集，涵盖多种器官和成像方式（CT、MRI、X射线、超声等）。

集成了基于局部和全局信息的先验成对图像相似度指标；

通过组合图匹配目标构造的损失函数捕获特征嵌入的结构约束;

用梯度估计对黑盒求解器进行端到端有效训练。

模型流程参考：

模型流程：特征提取：对于每张图像，应用两种随机变换（例如旋转、裁剪），生成两个变形后的图像。

图构建：使用变形后的图像的feature embedding来构建两个图（Graphs），每个图的节点代表变形后的图像。

图匹配：通过解决图匹配问题，学习特征表示，使得它们的编码为图匹配目标的全局解提供合适的先验。

实例：

(SSL）模型LVM-Med的预训练过程。以下是详细的步骤和组成部分的解释：

### 使用的模型和数据集
- **Resnet50** 和 **Vision Transformer (ViT-B/16)** 被用于训练LVM-Med模型。
- 对于Resnet50，加载了在ImageNet-1K数据集上预训练的权重。
- 对于ViT，加载了SAM编码器骨干网络的权重。

### 数据增强
- 原始图像通过多重裁剪技术被增强到两个不同的视图。
- 接下来，应用了概率为50%的翻转、颜色抖动、随机高斯模糊和归一化处理。

### 训练过程
- LVM-Med在收集的数据集上训练了100个周期。
- 对于使用ResNet50的训练，设置了3200的批次大小，而对于ViT，由于内存限制，批次大小减少到了2800。
- 使用Adam优化器进行模型优化，初始学习率设置为 \(2 \times 10^{-3}\)，并在训练过程中减半四次。
- 使用16个具有80GB内存的A100-GPUs进行训练，用ResNet-50训练LVM-Med需要五天，用ViT编码器需要七天。

### 竞争对手方法
- 与LVM-Med相比较的其他SSL方法（如VicRegl、Twin-Barlon、Dino等）也是从在ImageNet-1K上预训练的ResNet-50初始化的，并用默认设置训练了100个周期。

### 数据平衡
- 为了在不同模态之间平衡样本，结合了过采样和数据增强来增加总样本数。
- 通过复制图像并应用随机裁剪操作（覆盖85-95%的图像区域）来生成少数类的新样本，并且将它们缩放回原始分辨率。
- 注意，这些增强不用于自我监督算法中的变换（操作 \(s, t \sim T\)），以避免在采样过程中生成完全相同的扭曲版本。

总结来说，这个预训练过程包括了从已有的预训练模型开始，通过一系列数据增强技术来处理图像，并且通过使用最新的硬件资源进行了大规模的训练。此外，作者采用了一些策略来管理内存限制和数据不平衡问题，并且确保在自我监督学习中不会产生对图像同样处理的问题。

weixin_41749533

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging

整体理解下来，将大量无标签的数据通过两种变化，转换成了有监督的数据，然后对生成的特征进行self-supervised learning，去指导特征提取器的更新，其中关键点在于，提取的特征之间如何构造新的方法——二阶图匹配，去进行训练，提取出来的特征，全局，局部信息如何利用起来，同时也涉及到了梯度传播的问题。- 与LVM-Med相比较的其他SSL方法（如VicRegl、Twin-Barlon、Dino等）也是从在ImageNet-1K上预训练的ResNet-50初始化的，并用默认设置训练了100个周期。
复制链接

扫一扫