这篇文章也是一个医学图像语义分割的模型,同样是基于U-Net,UCTransNet 文章一开始分析了,U-Net 的各种形式,对于大家熟悉的跳连接进行了分析。发现
- 由于编解码器阶段特征集不兼容,并不是每个跳跃连接设置都是有效的,甚至一些跳跃连接会对分割性能产生负面影响;
- 原有的U-Net在某些数据集上比没有跳过连接的U-Net更差。
后来作者提出了一种新的模型结构,具体来说,CTrans(Channel Transformer))模块是U-Net skip connections的替代,其中一个子模块用于与Transformer进行多尺度通道交叉融合(CCT),另一个子模块Channel-wise Cross-attention(CCA)用于引导融合的多尺度通道信息与解码器特征有效连接以消除歧义。
上图是整个网络的整体结构。该文章主要是将U-Net 中的所有跳连接结合在一起。通过transformer 进行特征的融合,然后再使用一个CCA 模块去还原每一个跳连接。这里具体细节大家可以去细看论文。其中比较有意思的是特征融合阶段。