一、总结
这篇文献是关于一种名为Weak-Mamba-UNet的新型弱监督学习(WSL)框架,它结合了卷积神经网络(CNN)、视觉变换器(ViT)和最新的视觉Mamba(VMamba)架构,用于基于涂鸦(scribble-based)的医学图像分割。
在阅读论文过程中又去重温了一下以上3个架构的原理及实现过程,推荐阅读(1)卷积神经网络(CNN)详细介绍及其原理详解-CSDN博客文章浏览阅读10w+次,点赞1.8k次,收藏7.6k次。本文详细介绍了卷积神经网络(CNN)的基础概念和工作原理,包括输入层、卷积层、池化层、全连接层和输出层的作用。通过举例和图解,阐述了CNN如何处理图像,提取特征,以及如何进行手写数字识别。此外,讨论了池化层的平移不变性和防止过拟合的重要性。https://blog.csdn.net/IronmanJay/article/details/128689946
(2)ViT(Visual Transformer)最通俗易懂的讲解(有代码)-CSDN博客文章浏览阅读1.5k次,点赞18次,收藏33次。深入浅出,通俗易懂理解ViT(Vision Transformer)网络模型和代码。本文详细介绍了Google在ICLR上发布的VIT模型,它是首个在计算机视觉领域超越CNN和RNN的Transformer模型。文章重点阐述了VIT的结构,包括图像特征嵌入、Transformer编码器(含多头注意力机制)、MLP分类模块,以及模型的亮点和整体架构。_visual transformerhttps://blog.csdn.net/2301_77653781/article/details/142360725?fromshare=blogdetail&sharetype=blogdetail&sharerId=142360725&sharerefer=PC&sharesource=2201_76036122&sharefrom=from_link
1. 背景与动机:
- 医学图像分割对于医疗图像分析和治疗规划至关重要。
- UNet,因其对称的U形编码器-解码器架构和跳跃连接而成为基础的分割网络。
- 深度学习方法的有效性往往依赖于大量准确标记的数据集,这在医学图像分析领域难以获得。
2. Weak-Mamba-UNet框架:
- 该框架结合了三种不同的架构:基于CNN的UNet、基于Swin Transformer的SwinUNet和基于VMamba的Mamba-UNet。具体来说,UNet采用了一个具有3×3内核的2层CNN,并执行了4级下采样和上采样。swing - unet使用2个Swin Transformer模块,