图像分割unet系列------TransUnet详解

gz7seven

已于 2023-08-22 22:42:40 修改

阅读量6.7k

点赞数 9

分类专栏：医学图像处理深度学习文章标签： transunet 详解 unet transformer

于 2023-08-21 23:08:57 首次发布

本文链接：https://blog.csdn.net/guzhao9901/article/details/132418032

版权

深度学习同时被 2 个专栏收录

43 篇文章

订阅专栏

医学图像处理

14 篇文章

订阅专栏

TransUnet是一种改进的U-Net，结合了CNN和Transformer，解决医学图像分割中的长距离依赖和大尺寸图像处理问题。文章探讨了其结构优势，编码层中Transformer的作用以及与纯Transformer结构的比较。作者对未来可能的工程优化方向提出疑问。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

图像分割unet系列------TransUnet详解

TransUnet发表于2021年，它是对UNet非常重要的改进，专为医学图像分割任务设计，特别用于在医学图像中分割器官或病变等解剖结构。

1、TransUnet结构

TransUNet在U-Net模型的基础上引入了混合编码器，将CNN和Transformer结合起来，以解决传统卷积神经网络在建模长距离依赖性和处理大尺寸图像方面的局限性。
当前，有太多的文章介绍TransUnet的网络结构，包括注意力头的详细介绍，本文将不再赘述。我从自己的理解出发，思考几个问题，供大家一起讨论。在这里插入图片描述

2、我关心的问题

看到这个网络结构，我的第一反应就是为什么只在编码层的最后一层进行transformer的特征提取呢？这种网络结构的设计与只采用transformer结构有哪些可取之处呢？
2.1 编码层最后一层采用transformer的意义

以前的文章中我们讨论过，细颗粒度语义特征提取有利于对细节特征的分析，对于整体细节的分割更有意义，但是粗颗粒度语义特征的提取则增有利于定位。考虑到transformer结构的优点，即transformer的多头自注意力机制能够捕获图像中不同位置之间的依赖关系，建立特征表示中的全局上下文信息。我们大概就能明白作者这样设计的考量了，通过解码层的最后一层提高全局语义特征定位能力，加上前3层CNN结构对细节特征的提取，在解码层部分将会形成细节+精准定位的结合，从而得到更为准确的分割结果。

2.2 与纯transformer结构对比的优点

通过问题1的思考，我们就很容易得到问题2的答案。纯transformer结构在编码过程中过度的考虑了全局特征，对于细节特征缺少attention，而在CNN之后添加transformer结构则有效的解决了这个问题。
其实，我们还可以从另一个角度来思考这个问题。当前的显卡计算尤其是并行计算其实更有利于卷积结构，而对transformer结构的支持并不友好，不知道作者当时改进的时候有没有充分考虑这个因素。