深度学习在医学图像分割上的技巧、挑战、未来方向——论文研读

最新推荐文章于 2025-04-22 12:39:10 发布

Philo`

最新推荐文章于 2025-04-22 12:39:10 发布

阅读量3k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：论文研读文章标签：深度学习人工智能图像处理神经网络

本文链接：https://blog.csdn.net/qq_44864833/article/details/127936247

论文研读专栏收录该内容

15 篇文章

订阅专栏

深度学习在医学图像分割上的技巧、挑战、未来方向

1 论文地址

2022 Segmentation: Tricks, Challenges and Future Directions

2 源码地址

MedISeg Github

3 文章结构

摘要：在过去的几年里，计算机视觉深度学习技术的快速发展极大地提升了医学图像分割（MedISeg）的性能。然而，最近的 MedISeg 出版物通常侧重于介绍主要贡献（例如，网络架构、训练策略和损失函数），而无意中忽略了一些边际实现细节（也称为“技巧”），导致潜在的问题不公平的实验结果比较。在本文中，我们收集了一系列针对不同模型实现阶段（即预训练模型、数据预处理、数据增强、模型实现、模型推理和结果后处理）的 MedISeg 技巧，并通过实验探索其有效性这些技巧在一致的基线模型上。与纸质调查仅乏味地关注分割模型的优势和局限性分析相比，我们的工作提供了大量可靠的实验，并且在技术上更具可操作性。通过对代表性 2D 和 3D 医学图像数据集的广泛实验结果，我们明确阐明了这些技巧的效果。此外，基于调查的技巧，我们还开源了一个强大的 MedISeg 存储库，其中每个组件都具有即插即用的优势。我们相信，这项里程碑式的工作不仅完成了对最先进的 MedISeg 方法的全面和补充调查，而且还为解决未来医学图像处理挑战提供了实用指南，包括但不限于小数据集学习、类不平衡学习、多模态学习和领域适应。

自己现在是2D分割，主要记录一下2D分割的一些信息，具体需要请自行研读论文！
文章重点介绍的是在我们日常进行模型优化时候会对优化结果产生影响的6个方面进行讨论，分别是模型预训练、数据预处理、数据增强、模型部署、模型推理和结果分析，针对每一部分的常见的tricks进行对比分析，看看这些tricks到底有没有用，到底有多大的用处，

文章结构：
在这里插入图片描述

4 基础设置(设置baseline不变)

4.1 数据集2D

4.1.1 2D ISIC 2018

皮肤病变边界分割数据集，包含2594对图片(原始图片和GT图片)，每张图片大小为600*450像素大小。部分数据展示如下：
在这里插入图片描述

4.1.2 2D CoNIC

是Lizard数据集的一部分，文章主要使用的是其中的一部分，用来分割细胞区域的，包含4981对图像(包含原始RGB图像和GT图像)，像素大小为256*256，部分展示如下：
在这里插入图片描述

4.1.3 3D此文省略

4.2 超参设置

Backbone： ResNet-50
Input size： 200*200
Normalized： 使用ImageNet dataset的平均值和标准差进行归一化处理
LR： 0.0003
Optimizer: Adam
Weight decay: 0.0005
Epochs: 200
Batch_size: 32
Loss function: pixel-level cross-entropy

控制好不变量，接下来的6个部分就是针对不同部分的tricks进行对比，看看它们的实际影响情况！！

5 模型预训练部分

存在6个tricks，分别是：

通过Pytorch自带的预训练模型参数；
ImageNet 1K预训练模型
ImageNet 21K预训练模型
SimCLR 预训练
MOCO 预训练
ModelGe 预训练

结果：
在这里插入图片描述

结果表明，这些tricks都存在一定的影响，其中ImageNet21K的影响最大！！

6 数据预处理部分

文章只实验了3D数据预处理，因此本部分没有内容
不过常见的2D图像也有缩放，归一化等，需要注意的是，这些数据增强部分都是对原始图像和GT图像一起操作的。

7 数据增强部分

7.1 几何变化的数据增强

常见的有: 翻转、旋转、剪裁、颜色抖动、低分辨率模拟、高斯噪声注入、混合图像、随机擦除、高斯模糊等，文章将其分为两组，一种是像素级别变换（GTAug-A），一种是空间级别变换（GTAug-B）

7.2 GAN数据增强

通过生成器和辨别器，引导网络生成和源数据类似的数据，文章中使用默认GAN进行图像生成

结果：

在这里插入图片描述

可以很明显的看出，针对医学图像这一块，空间上的图像增强是有效果的，但是像素级别的变换针对不同数据集有不同的情况，需要慎用！！

8 模型实现部分

文章主要给出了三大类，七小种trick比较，分别为：
Deep Supervision(DeepS): 就是在网络中间层加入其他loss，最终loss按照系数相加，为的是增加网络浅层的作用，GoogleNet在早期也有这一块操作；
Class Balance Loss (CBL)： 包含CBLDice , CBLFocal , CBLTvers and CBLWCE ，相关的可自行了解;
OHEM: 核心思想是通过损失函数过滤掉一些难学习的样本；
IntNorm： 也是一种归一化思想，文章主要是在3D数据集上实验的。

结果：
在这里插入图片描述

结果表明，Dice和Tvers两种损失函数有很大的效果，我现在做的分割任务中，也是用了Dice loss函数；

9 模型推理部分

总所周知，在进行测试时，如果只是对图像进行一种变化，可能会导致特征丢失；同时，在不同的随机数种子下，训练出来的结果有一定的区别，因此，文章种给出了两种模型推理阶段的Tricks，一种是测试时的数据增强(TTA)，介绍1 介绍2，一种是模型集合(Ensemble)，即将多个模型的结果进行统计后输出；
文章中 将TTA分为 TTAbaseline， TTAAug_A，TTAGTAug-B，将Ensemble分为EnsVot 和 EnsAvg，投票和平均进行测试，模型来自不同seed下的5个训练模型；
结果：
在这里插入图片描述

结果中可知，在TTA时采取空间级别的数据增强，会得到更好的效果，同时单独的时候Ens有时也会有不错的结果！！

10 后处理操作部分

即通过人为手工操作结果，是不可学习的方法，文章中提供了两种Tricks，分别是最大组件抑制(ABL-CS)和一处小区域(RSA)
ABL-CS: 结合生物物理特性，去除分割区域中的一些错误区域。例如心脏分割中，只会有一个心脏，不应该存在两个；
**RAS：**对最后的分割结果中，设置像素阈值，将小于阈值的实例删除；
在这里插入图片描述