2023 港科大医学图像分割新作 | PHNet: 当MLP与CNN巧妙结合会擦出什么火花?

欢迎关注『CVHub』官方微信公众号!

Title: A Permutable Hybrid Network for Volumetric Medical Image Segmentation

PDF: https://arxiv.org/pdf/2303.13111

Code: coming soon…

CVHub导读

近年来,VIT(Vision Transformer)在3D医学图像分割中取得了实质性进展,与此同时,多层感知器MLP(Multi-Layer Perceptron)网络由于其与VIT具有相当性的结果而重新受到研究人员的青睐。本文提出了一种用于3D医学图像分割的混合网络PHNet,它利用了卷积神经网络CNNMLP的优点,通过利用2D和3D CNN提取局部信息,解决了3D volume 数据内在的各向同性问题;此外,本文还提出了一种高效的多层置换感知器模块MLPP,它通过保留位置信息来增强原始的MLP,并获得长程距离依赖。通过在两个公共数据集COVID-19-20和Synapse上的实验结果表明,本文所提出的PHNet方法优于最先进的SOTA方法。

引言

卷积神经网络的发展极大推动了计算机辅助诊断CAD(Computer-aided diagnosis)性能,尤其是在医学图像分割方向。其中最受欢迎的医学图像分割结构当属U-Net,它以编码-解码结构和经典的跳跃连接不仅捕获了图像丰富的语义信息,还极大保持了医学图像的空间细节信息。继U-Net之后,多个优秀的变种相继出现,比如ResUNetY-NetN-Net等。

图1. Illustration of different architectures

随后,基于注意力机制的Transformer在自然语言处理领域大火。以计算机视觉领域为代表的Transformer网络VIT架构频频霸榜,在各类计算机视觉任务上都展现出了比CNN架构更先进的性能。鉴于Transformer在自然图像识别任务方面的显着进展,许多研究人员已经研究了各种神经网络在医学图像分割方面的有效性。例如,TransUNet提出在U-Net体系结构的瓶颈处使用Transformer进行全局信息通信。同样,UNETRCoTr 设计了一个层次化的Transformer和CNN架构进行融合也取得了不错的精度。

Transformer大法固然好,但其内在的自注意力机制产生的巨大计算量一直是一个诟病(这一点极大限制了该架构在工业界的推广应用),尤其是在3D医学图像数据中。

因此,基于多层感知器MLP的方法在研究界重新引起了兴趣,因为它已经展示出了与CNNTransformer架构相当的性能,而不需要沉重的自我注意机制。例如,MLP-Mixer 通过一系列MLP可以实现特征间的信息交流,以捕获输入数据中的长远距离依赖。然而,MLP在3D医学图像分割方面的有效性仍然缺乏研究。

为此,本文将CNNMLP相结合,提出了一种新的混合网络PHNet,以实现准确的3D医学图像分割。PHNet采用编码器-解码器结构,其中编码器利用2.5D CNN结构,可以利用医学图像固有的等向性,并通过捕获不同方向上体积医学图像的变化信息密度来避免浅层损失信息。论文进一步提出了MLPP,一种可以在计算效率高的情况下保持位置信息并集成全局相互依赖性的多层排列感知器模块。为了提高计算效率,引入了令牌token组操作,可以高效地在令牌级别上聚合特征映射,从而减少所需的计算量。本文首次提出将CNNMLP进行结合,并应用于3D医学图像分割。通过在两个公开数据集上的评估实验(COVID-19肺CT病灶分割挑战赛2020(COVID-19-20)和Synapse多器官分割),证明了PHNet表现均优于当前最先进的SOTA方法,并超越了MICCAI Covid-19-20挑战赛的冠军!

方法

图2. Overview of PHNet and Detailed architecture of MLPP

如上图2所示PHNet总体思路非常简单:采用编码器-解码器架构,编码器由两个主要组件组成:2.5D卷积模块和多层置换感知器(MLPP)模块。2.5D卷积阶段提取局部特征,输出的特征图传递给MLPP模块以学习全局特征。解码器对分层特征进行处理以进行最终预测。

2.5D Convolution

本文通过引入卷积层来提取局部特征,这是基于先前关于医学图像分析偏差的研究和3D体积医学图像的各向异性本质而得出的结论。3D体积图像如CT和MRI扫描常常由于其厚切片扫描而受到各向异性问题的影响,导致高面内IP分辨率和低面外TP分辨率,这种差异在COVID-19-20中特别明显,其IP分辨率平均为0.74mm,而TP分辨率仅为5mm。为了解决这一问题,本文使用2D卷积块来捕获IP信息,直到特征在三个轴面(横断、冠状和矢状)上形成近似均匀的分辨率,然后使用3D卷积块来处理体素信息。每个编码器层由两个残差卷积块组成,每个块包括两个顺序的Conv-IN-ReLU操作。

Multi-Layer Permute Perceptron (MLPP)

尽管卷积神经网络(CNN)通过深层堆叠卷积层能够建模长距离依赖关系,但研究表明:基于多层感知器MLP的网络在学习全局上下文方面更有效。 因此本文设计了MLPP模块(如上图2b所示)用以提取深层的全局信息。MLPP模块按顺序分解平面内IP特征和垂直方向TP特征的训练。作者分别将这两个块称为IP-MLPTP-MLP。为了实现跨轴令牌之间的通信,作者还在IP-MLP中提出了一个辅助注意力分支,称为AA-MLP。具体细节如下:

IP-MLP

常见的基于多层感知机MLP的方法将输入特征图直接展平成一维向量,这会导致卷积特征中的空间信息丢失。为了解决这个问题,作者提出了一种称为轴向分解的方法,在水平轴、垂直轴和通道轴上分别对输入特征进行单独处理,从而在编码某个轴向信息时保留其他轴向的精确位置信息。

为了平衡远距离交互和计算成本,并减轻图像分辨率敏感性问题,作者还提出了一种称为token分割的操作,将特征向量分割成多个token,这些token可以被后续的全连接层高效处理。作者以水平轴为例,将输入特征沿水平方向分成不重叠的段,然后将每个段再分成多个不重叠的通道组,其中每个组有g = C/L个通道。接下来,作者将每个分段展平并使用一个全连接层将 R L g R_{Lg} RLg映射到 R L g R_{Lg} RLg,从而得到一个新的特征向量 Y i k Y_i^{k} Yik。最后,将所有分段重新排列,得到 Y H Y_H YH Y W Y_W YW Y C Y_C YC三个特征向量,它们分别代表沿垂直,水平和通道方向的编码信息。这些特征向量经过逐元素求和后,被送入一个新的全连接层,得到最终的输出 Y I P Y_{IP} YIP,其中 W ∈ R C × C W \in R^{C×C} WRC×C是全连接层的权重矩阵。

AA-MLP

本文提出的IP-MLP模块有两个限制,可能会损害分割性能。首先,轴向分解截断了不在相同水平或垂直位置的令牌之间的直接交互。其次,与vanilla MLP相比,令牌分割操作的局部接收字段较小。为了解决这些限制,作者设计了一个辅助分支,以实现轴内令牌通信,并通过轻量级但有效的类MLP架构充当注意力函数。具体来说,给定输入的特征图 X ∈ R H × W × C X\in \mathbb{R}^{H\times W\times C} XRH×W×C,将 X X X划分为非重叠的窗口,窗口大小设置为 L L L,因此得到 X i ∈ R L × L X_i \in \mathbb{R}^{L\times L} XiRL×L,其中 i ∈ 1 , … , H W C / L 2 i \in {1,\dots,HWC/L^2} i1,,HWC/L2。然后应用一个FC矩阵 W ∈ R L 2 × L 2 W \in \mathbb{R}^{L^2\times L^2} WRL2×L2来转换每个窗口,并得到 Y i ∈ R L × L Y_i \in \mathbb{R}^{L\times L} YiRL×L。通过将所有窗口排列回原始尺寸,最终得到注意力图 Y A ∈ R H × W × C YA\in \mathbb{R}^{H\times W\times C} YARH×W×C。最后,通过 Y I P Y_{IP} YIP Y A Y_A YA的残差注意力得到IP-MLP的特征映射 F I P F_{IP} FIP

其中 ⊙ \odot 表示逐元素相乘。

TP-MLP

通过IP-MLP获取了平面内的信息后,接下来使用TP-MLP来捕捉长期的沿平面垂直方向的特征。同样地,对于输入的特征映射 F I P ∈ R H × W × D × C F_{IP} \in \mathbb{R}^{H \times W \times D \times C} FIPRH×W×D×C,我们首先沿深度维度将 X = F I P X=F_{IP} X=FIP划分为长度为L的不重叠的片段。这样我们获得了 X i ∈ R L × C X_i \in \mathbb{R}^{L \times C} XiRL×C,其中 i ∈ 1 , . . . , H W D L i \in {1,...,\frac{HWD}{L}} i1,...,LHWD。接下来,我们将X沿通道维度分为几个不重叠的组,每组有g=C/L个通道,然后得到 X k i ∈ R L × g X_{ki} \in \mathbb{R}^{L \times g} XkiRL×g,其中 k ∈ 1 , . . . , C / g k \in {1,...,C/g} k1,...,C/g。然后,我们将每个段展平并通过全连接层将 R L × g \mathbb{R}^{L \times g} RL×g映射到 R L × g \mathbb{R}^{L \times g} RL×g,得到 Y i k Y_{i}^k Yik。最后,我们将所有 Y i k ∈ R L × g Y_{i}^k \in \mathbb{R}^{L \times g} YikRL×g的段重新排列到原始维度,并输出 F T P ∈ R H × W × D × C \mathrm{F_{TP}} \in \mathbb{R}^{H \times W \times D \times C} FTPRH×W×D×C

Decoder

本文的解码器采用纯CNN架构,使用转置卷积逐渐上采样特征映射以匹配输入图像分辨率。在上采样过程之后,使用残差卷积块来细化特征映射。为了进一步提高分割准确性,作者在编码器和解码器之间包括跳跃连接,允许保留low-level的细节信息。

实验结果

Synapse数据集上不同方法的定性可视化效果,为了更好地展示细节,显著改进的区域被放大

COVID-19-20数据集上不同SOTA方法对比

Synapse数据集上不同SOTA方法对比

::: block-1
消融实验

(a)作者对不同结构的组合进行了性能比较,包括在浅层和深层使用 Conv、Attention 和 MLP 的不同组合。其中Conv 和 MLP 使用了与 PHNet 相同的模块,Attention 使用了 Swin Transformer block 并将窗口大小设置为分段长度以进行公平比较。结果显示,在浅层使用 Conv 和在深层使用 MLP 的组合可以获得最佳性能,这与作者的论点相符,即 Conv 擅长提取局部特征,而 MLP 更有效地模拟长程依赖。

(b)作者还比较了不同 MLP 设计的性能,包括 MLP-Mixer(M)、ShiftMLP(S) 和 WaveMLP(W)。作者仅将 PHNet(P)中的 MLPP 模块替换为其他模块以进行公平比较。结果表明,所提出的结构分别在 Dice 指标上获得了 2.15%、1.85% 和 0.45% 的改进,证明了本文设计的良好性能。

(c)作者还研究了不同分段长度 L 对性能的影响。具体地,将分段长度设置为宽度(W)的不同比例,即 1、1/2、1/3 和 1/4。这有利于不同大小的感兴趣区域(ROI)。结果显示,当 L = 1/2 W 时,性能最佳。

(d)最后,作者研究了 MLP 层数的影响。结果表明,在 MLP 层数为 2 时,性能最佳。

:::

结论

本文提出了一种新的可置换混合网络PHNet,用于3D体积医学图像分割任务。PHNet集成了2D CNN、3D CNN和MLP,以实现局部和全局特征的提取和集成。此外,本文还引入了一个可置换的MLP块,以解决空间信息丢失问题并最小化计算负担。通过在两个公共数据集上进行的广泛实验证明,所提出的方法优于现有的SOTA方法。结合不同任务的特点,考虑精度与计算负载问题,系统地研究CNN、Transformer和MLP之间的效率、有效性和交互作用,会是一个不错的idea。


如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎添加小编微信号: cv_huber,备注"CSDN",加入 CVHub 官方学术&技术交流群,一起探讨更多有趣的话题!

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值