MedISeg:面向医学图像语义分割的技巧、挑战和未来的方向

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者:ERLING的铲屎官 |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/566993442

论文和代码信息:

037b5eab1453a864e76f83da03ab4401.png

Deep Learning for Medical Image Segmentation: Tricks, Challenges and Future Directions

论文地址:

https://arxiv.org/abs/2209.10307

源码和预训练模型地址:

https://github.com/hust-linyi/MedISeg

动机:

我们这篇论文的出发点是想要解决大家一直以来诟病的一个问题,即深度学习模型的architecture和setting过于复杂,导致实验结果的比较存在不公平性。

举个常见的栗子,比如大家都会用到的ResNet,几乎每个人都会在论文中说“Our backbone network is ResNet-50 or ResNet-101.”, 但是其实在部署的时候,ResNet的input stem存在两种不一样的形式,如下图:

5f0788e27f332db3f9559f7f76c29256.png

Two implementation schemes of the input stem in ResNet

(b)是在(a)上面的一个改进,用于减少计算量的。这种改进被证实是可以显著的影响模型的识别精度的,但是少有人在自己的论文中介绍backbone network的时候提及这种改进。那么,基于这两种不一样形式的backbone的实验结果比较,显然是不公平的。

方法:

1. 按照深度学习模型部署的6个阶段,我们首先搜集了一些大家经常会使用但又被容易忽略的Tricks

2. 以2D和3D的医学图像为实验对象,进行了大量的实验以显式地探索这些Tricks对模型性能的影响

结论:

1. Tricks很重要,可以显著地影响模型的识别性能

2. 某些Tricks具有跨数据、跨模态、跨模型的迁移性

3. Tricks本质上对应的是解决了语义分割中的一些Challenges,因此在部署Tricks的时候需要考虑到想要解决的Challenges之间的内在关联

4. 基于这些Tricks的实验结论可以帮助我们将来在解决2D和3D图像语义分割Challenges的时候提供实际的指导

下面简单的介绍一些我们的方法MedISeg、方法的优势、简单的讨论以及未来的方向。

这边主要做简单的介绍,更多详情请看原文,如有错误请各位大佬批评指正~

1. 我们的方法

在本文中,我们首先收集了一系列针对不同模型部署阶段的Tricks。这些Tricks主要可以被划分为以下6个方面:

  • 预训练模型

  • 数据预处理

  • 数据扩增

  • 模型部署

  • 模型推理

  • 结果后处理

9ac3f879957b003be826109e4d694e64.jpeg
图1 MedISeg包含的tricks以及这些tricks之间的潜在的关联

其次,在这些Tricks的基础上,我们通过实验探索了这些Tricks在一致的基准模型和数据集上对于实验结果的影响。为了能全面的覆盖2D和3D数据,我们以医学图像语义分割数据为实验对象,选择了4个常用的医学图像语义分割数据集,即2D ISIC 2018,2D CoNIC,3D KiTS19和3D LiTS,所采用的基准模型分别是2D-UNet和3D-UNet

2. MedISeg的优势

1)我们的工作提供了大量扎实的实验,在技术上更具有更强的可操作性和更现实的指导性

2)通过在2D和3D数据集上的大量实验,我们明确地阐明了这些Tricks对于实验结果的影响

3)基于所调查的Tricks,我们开源了MedISeg源码和预训练模型库,其全面的覆盖了2D、3D数据集以及不同的语义分割方法

3. 方法讨论

Tricks本质上对应的是解决了语义分割任务中的一些Challenges。在本文中,我们主要围绕small dataset learning, class imbalance learning, multi-modality learning, 和domain adaptation四个方面展开了讨论。每一个Trick对应的Challenges分析请查看原文的Section 4。此外,Tricks的不同部署策略会带来效果上的差异。在本文中,我们对数据扩增中的策略展开讨论,发现不同的数据扩增方法组合在同样的数据集上带来的提升略有差异。另外,同样的策略在不同的数据集上也有有差异,这说明我们在选择Tricks的时候,还需要考虑到数据集本身的状况。比如当我们选择损失函数对应的Tricks的时候,选择的Tricks本质上是解决了class imbalance learning的问题,但要是我们的数据集中没有这个问题,那么这么Tricks就不能起到我们预想的效果。这其实也可以回答大家之前的一个疑问,为什么有些Tricks加在模型中是有效的,而有些是没有效果的,甚至有些时候Tricks之间好像是存在部署上的冲突的。本质原因就是由于Tricks解决的Challenges导致的

4dd8aecaaa2fb220440d195782cd2e35.jpeg
图2 不同的数据扩增方法在3D KiTS19和3D LiTS数据集上的实验表现差异

4. 未来的方向

对于本文研究的内容以及面向医学图像语义分割任务,将来可以在以下几个方面继续展开研究:

1)调研和开发更多的面向医学图像语义分割的tricks

2) 继续在更多的方法和数据集上探索其他tricks的有效性。这也是我们接下来的一段时间会继续做的事情,对应的内容会持续在GitHub上进行更新

3)前面提到的,tricks其实对应的是解决了语义分割任务中的一些Challenges。那么反过来,我们其实也可以利用tricks来指导我们的模型设计,使得我们的模型也具有“又好又快”的效果

4)探索基于attention方法和框架的tricks

全文总结:

这篇文章是一个我们的一个简单的总结和尝试,抛砖引玉,希望能引起大家对于Tricks的重视~

论文的页面有限,我们在GitHub上提供了大量的在不同backbone、models和datasets上的实验结果和预训练模型,欢迎大家取用~

也欢迎大家在我们的GitHub项目下Star、Fork并提交Issues,我们一定会及时回复大家!

MedISeg 论文和代码下载

后台回复:MedISeg,即可下载上述论文PDF

重磅!医学图像 交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-医疗影像微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如医疗影像+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值