transformer再突破！基于Vision Transformer的医学图像分割模型新SOTA！

最新推荐文章于 2025-05-01 11:24:05 发布

小白学视觉

最新推荐文章于 2025-05-01 11:24:05 发布

阅读量725

点赞数

文章标签： transformer 深度学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247614620&idx=1&sn=11501d453375fe21b211692d6ecca522&chksm=fa903fd2ad1395146411d555c37f8e85a2da8bef384293a8ca1afdb5cce2cc177390c952b3d6&scene=126&sessionid=0

版权

近年来，随着Vision Transformer在常规计算机视觉任务，如分类、分割和检测等基础任务上的成功。很多学者尝试将Vision Transformer引入到医学图像分割领域，提出了很多基于Vision Transformer的医学图像分割模型。这些模型取得显著的分割性能提升。

1月4日-1月5日，我们邀请到华东地区某高校Assistant Professor，多篇顶会作者王老师为我们带来——基于Vision Transformer的医学图像分割模型，探索CNN和Vision transformer结合的背景下，如何高效地设计面向医学图像分割的模型。

扫码免费参与直播

赠导师整理医学图像顶会论文合集&ppt原稿

MICCAI2023热门医学影像论文合集

直播讲师：王老师

-华东地区某高校Assistant Professor，具备极强的学术背景

-共发表20余篇SCI国际期刊和CCF推荐会议论文，包括一区期刊 IEEE Internet of Things Journal (中科院新版分区SCI 1区, IF=10.238)、Knowledge Based System. (中科院新版分区SCI 1区, IF=8.139)等；CCF-B类会议ECML-PKDD, ECAI, DASSFA, ICASSP等。

-长期担任计算机视觉、人工智能、自然语言处理等领域期刊和会议KBS,ESWA,IEEE IOT,计算机学报、自动化学报、电子学报等审稿人

-研究领域主要包括轻量化语义分割、目标检测、知识蒸馏、显著性检测、医学图像处理等领域

直播大纲

1）Unet和医学图像分割入门；

2）使用Vision Transformer做特增增强；

3）使用Vision Transformer做骨干网络；

4）多层（跨尺度）特征融合的模型

扫码免费参与直播

赠导师整理医学图像顶会论文合集&ppt原稿

MICCAI2023热门医学影像论文合集

U-Net网络在医学图像分割任务中取得了很好的成绩。医学图像分割是发展医疗保健系统的必要前提，特别是在疾病诊断和治疗计划方面。在各种医学图像分割任务中U-Net已经取得了巨大的成功。

然而，由于卷积操作的内在局部性，U-Net在显式建模长期依赖关系方面通常表现出局限性。近年来，众多学者针对U-Net结构不断地进行研究和扩展，比如编、解码器的改进和跳跃连接的改进。

从模型网络流程图来看，基于Vision Transformer的语义分割模型，还是遵循了U形网络的架构。这些模型，基本上可以分为三部分：编码器（解码器）、特征增强和多层特征融合模块。

编码器（解码器）部分：编码器部分，有些工作尝试使用CNN作为骨干网络，提取特征，比如上图的Trans-Unet,使用CNN作为编码器和解码器；后期的很多工作，尝试使用各种Vision Transformer，比如下图的Swin-Unet，使用Swin Transformer作为编码器和解码器。相比CNN模型，使用Vision Transformer能提取到强大的全局信息，带来更加丰富的特征表示。

特征增强模块：早期的很多工作，如Trans-Unet、Swin-Unet，都是在最后一个stage，使用多种注意力机制，来增强该阶段的特征表示。有些工作甚至提出，在这一阶段，将多尺度与注意力机制结合，来丰富该阶段的特征表示。