U-KAN:医学图像分割与生成的骨干网络

文章简介

今天介绍的这篇文章是来着港中文大学和CAIR, HKISI-CAS等人发表的题为 "U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation",中文名可以翻译为“U-KAN:医学图像分割与生成的强大骨干网络”。

该文章提出了一种新的网络架构U-KAN,它将Kolmogorov-Arnold Networks (KANs)集成到U-Net中,用于提高医学图像分割和生成的性能。U-KAN通过在编码器-解码器架构中引入KAN层,增强了模型的非线性建模能力和可解释性。

论文:https://arxiv.org/abs/2406.02918

代码:GitHub - CUHK-AIM-Group/U-KAN: [ArXiv' 24] U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation

拟解决的问题是:现有医学图像分割模型在处理复杂非线性模式时受限,且存在可解释性不足的问题。

以下是文章中涉及的一些关键领域和专业术语:

  1. U-Net一种常用于医学图像分割的卷积神经网络架构。

  2. Kolmogorov-Arnold Networks (KANs)基于Kolmogorov-Arnold表示定理的神经网络,一种新型的神经网络结构,使用非线性可学习的激活函数,具有较高的准确性和可解释性。

  3. Image Segmentation图像分割。

  4. Diffusion Models扩散模型,通过逐步添加高斯噪声并在逆过程中去除噪声来生成数据。

  5. Transformers变换器,一种注意力机制的网络结构。一种基于自注意力机制的模型,能够处理序列数据,广泛应用于自然语言处理和计算机视觉。

  6. MLP (Multi-Layer Perceptron)多层感知机,一种基础的前馈神经网络,由多个线性层和非线性激活函数组成。

  7. Encoder-Decoder Architecture编码器-解码器架构,一种网络结构,包含编码器用于提取特征和解码器用于重建或生成输出。

  8. Skip Connections跳跃连接,网络中连接不同层的直接路径,有助于梯度流动并减少梯度消失问题。

  9. Tokenization标记化,将输入序列分解为一系列离散的标记或符号的过程。

  10. Fréchet Inception Distance (FID)弗雷谢特 inception 距离,一种衡量生成模型性能的指标,通过比较生成图像和真实图像分布之间的距离。

摘要

U-Net已成为各种视觉应用的基石,例如图像分割和扩散概率模型。尽管通过整合变换器或MLP引入了许多创新设计和改进,但这些网络仍然限于线性建模模式以及缺乏可解释性。为了解决这些挑战,我们受到Kolmogorov-Arnold Networks (KANs)在准确性和可解释性方面取得的印象深刻的结果的启发,这些结果通过Kolmogorov-Anold表示定理派生的非线性可学习激活函数堆叠来重塑神经网络学习。具体来说,在本文中,我们探索了KANs在改善视觉任务骨干方面的未开发潜力。我们通过整合专用的KAN层对既定的U-Net管道进行了调查、修改和重新设计,称为U-KAN。严格的医学图像分割基准验证了UKAN的优越性,即使计算成本更低,也能获得更高的准确性。我们进一步探讨了U-KAN作为扩散模型中U-Net噪声预测器的替代品的潜力,展示了其在生成面向任务的模型架构方面的适用性。项目页面:https://yes-u-kan.github.io/。

主要贡献

最近,Kolmogorov-Arnold Networks (KANs)试图以优越的可解释性打开传统网络结构的黑匣子,揭示了白盒网络研究的巨大潜力。考虑到KANs中合并的优秀架构属性,有效地利用KAN弥合网络的物理属性和经验性能之间的差距是有意义的。我们开始了对普遍适用的U-KAN框架的探索,标志着首次尝试将先进的KAN整合到UNet的关键视觉骨干中,并得到一种卷积KAN混合架构风格。本文主要贡献如下:

  • 我们首次尝试整合新兴KAN的优势,改进既定的U-Net管道,使其更准确、高效和可解释。

  • 我们提出了一个标记化KAN块,有效地引导KAN操作符与现有的基于卷积的设计兼容。

  • 我们在广泛的医学分割基准上实证验证了U-KAN,实现了令人印象深刻的准确性和效率。

  • 将U-KAN应用于现有扩散模型作为改进的噪声预测器,展示了其在骨干生成任务和更广泛视觉设置中的潜力。

高效嵌入器:KAN

本研究旨在将Kolmogorov–Arnold网络(KAN)整合到U-Net框架中。这一方法的基础是KAN在(Liu et al. 2024e)中概述的高效性和可解释性。包含K层的多层感知机(MLP)可以描述为变换矩阵W和激活函数σ的相互作用:

网络框架

该图展示了所提出的U-KAN的整体架构,遵循一个两阶段的编码器-解码器结构,包括一个卷积阶段和一个标记化Kolmogorov-Arnold网络(Tok-KAN)阶段。输入图像通过编码器传递,其中最初的三个块使用卷积操作,随后是两个标记化的多层感知器(MLP)块。解码器由两个标记化的KAN块和三个卷积块组成。每个编码器块将特征分辨率减半,而每个解码器块将其加倍。此外,编码器和解码器之间集成了跳跃连接。卷积阶段和Tok-KAN阶段中每个块的通道数分别由超参数C1至C3和D1至D3确定。

U-KAN架构

卷积阶段

标记化KAN阶段

U-KAN解码器

将U-KAN扩展到扩散模型

实验细节

消融实验结论

KAN层的数量:通过引入KAN层,U-KAN能够更好地建模分割细节。研究发现,配置三层KAN层的U-KAN表现最佳,这表明适当数量的KAN层有助于捕捉复杂的分割细节。

KAN层与MLP的比较:为了验证KAN层对模型性能的提升作用,研究用传统的多层感知机(MLP)替换了部分KAN层。结果显示,当KAN层被替换为MLP时,模型在多个任务中的性能明显下降,特别是在需要强大特征提取的复杂任务中,强调了KAN层的重要性。

模型扩展:研究了U-KAN在不同模型尺寸下的表现,发现更大的模型(具有更多通道数)通常带来更好的性能,这符合模型扩展规律。为了在性能和计算成本之间取得平衡,研究采用了默认的基本模型配置。

可解释性:通过分析激活模式,研究探讨了KAN层的可解释性。结果显示,与MLP相比,KAN层能够更准确地定位感兴趣区域,并与真实标签一致。这表明KAN层在提升模型决策的可解释性方面具有显著作用,特别是在掩码预测任务中。

存在问题和未来改进方向

文章提出的方法虽然在多个基准测试中表现优异,但未来可以进一步扩展至更大规模的设置和更高维度的数据格式,如时间序列数据、基因组数据和3D表示

参考文献:Li C, Liu X, Li W, et al. U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation[J]. arXiv preprint arXiv:2406.02918, 2024.

声明:仅作分享,侵权立删!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值