U-KAN：医学图像分割与生成的骨干网络

最新推荐文章于 2024-11-22 07:30:00 发布

半俗、半雅

最新推荐文章于 2024-11-22 07:30:00 发布

阅读量3.7k

点赞数 35

文章标签：图像处理深度学习机器学习

本文链接：https://blog.csdn.net/qq_52046512/article/details/141724900

版权

文章简介

今天介绍的这篇文章是来着港中文大学和CAIR, HKISI-CAS等人发表的题为 "U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation"，中文名可以翻译为“U-KAN：医学图像分割与生成的强大骨干网络”。

该文章提出了一种新的网络架构U-KAN，它将Kolmogorov-Arnold Networks (KANs)集成到U-Net中，用于提高医学图像分割和生成的性能。U-KAN通过在编码器-解码器架构中引入KAN层，增强了模型的非线性建模能力和可解释性。

论文：https://arxiv.org/abs/2406.02918

代码：GitHub - CUHK-AIM-Group/U-KAN: [ArXiv' 24] U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation

拟解决的问题是：现有医学图像分割模型在处理复杂非线性模式时受限，且存在可解释性不足的问题。

以下是文章中涉及的一些关键领域和专业术语：

U-Net一种常用于医学图像分割的卷积神经网络架构。
Kolmogorov-Arnold Networks (KANs)基于Kolmogorov-Arnold表示定理的神经网络，一种新型的神经网络结构，使用非线性可学习的激活函数，具有较高的准确性和可解释性。
Image Segmentation图像分割。
Diffusion Models扩散模型，通过逐步添加高斯噪声并在逆过程中去除噪声来生成数据。
Transformers变换器，一种注意力机制的网络结构。一种基于自注意力机制的模型，能够处理序列数据，广泛应用于自然语言处理和计算机视觉。
MLP (Multi-Layer Perceptron)多层感知机，一种基础的前馈神经网络，由多个线性层和非线性激活函数组成。
Encoder-Decoder Architecture编码器-解码器架构，一种网络结构，包含编码器用于提取特征和解码器用于重建或生成输出。
Skip Connections跳跃连接，网络中连接不同层的直接路径，有助于梯度流动并减少梯度消失问题。
Tokenization标记化，将输入序列分解为一系列离散的标记或符号的过程。
Fréchet Inception Distance (FID)弗雷谢特 inception 距离，一种衡量生成模型性能的指标，通过比较生成图像和真实图像分布之间的距离。

摘要

U-Net已成为各种视觉应用的基石，例如图像分割和扩散概率模型。尽管通过整合变换器或MLP引入了许多创新设计和改进，但这些网络仍然限于线性建模模式以及缺乏可解释性。为了解决这些挑战，我们受到Kolmogorov-Arnold Networks (KANs)在准确性和可解释性方面取得的印象深刻的结果的启发，这些结果通过Kolmogorov-Anold表示定理派生的非线性可学习激活函数堆叠来重塑神经网络学习。具体来说，在本文中，我们探索了KANs在改善视觉任务骨干方面的未开发潜力。我们通过整合专用的KAN层对既定的U-Net管道进行了调查、修改和重新设计，称为U-KAN。严格的医学图像分割基准验证了UKAN的优越性，即使计算成本更低，也能获得更高的准确性。我们进一步探讨了U-KAN作为扩散模型中U-Net噪声预测器的替代品的潜力，展示了其在生成面向任务的模型架构方面的适用性。项目页面：https://yes-u-kan.github.io/。

主要贡献

最近，Kolmogorov-Arnold Networks (KANs)试图以优越的可解释性打开传统网络结构的黑匣子，揭示了白盒网络研究的巨大潜力。考虑到KANs中合并的优秀架构属性，有效地利用KAN弥合网络的物理属性和经验性能之间的差距是有意义的。我们开始了对普遍适用的U-KAN框架的探索，标志着首次尝试将先进的KAN整合到UNet的关键视觉骨干中，并得到一种卷积KAN混合架构风格。本文主要贡献如下：

我们首次尝试整合新兴KAN的优势，改进既定的U-Net管道，使其更准确、高效和可解释。
我们提出了一个标记化KAN块，有效地引导KAN操作符与现有的基于卷积的设计兼容。
我们在广泛的医学分割基准上实证验证了U-KAN，实现了令人印象深刻的准确性和效率。
将U-KAN应用于现有扩散模型作为改进的噪声预测器，展示了其在骨干生成任务和更广泛视觉设置中的潜力。

高效嵌入器：KAN

本研究旨在将Kolmogorov–Arnold网络（KAN）整合到U-Net框架中。这一方法的基础是KAN在（Liu et al. 2024e）中概述的高效性和可解释性。包含K层的多层感知机（MLP）可以描述为变换矩阵W和激活函数σ的相互作用：

网络框架

该图展示了所提出的U-KAN的整体架构，遵循一个两阶段的编码器-解码器结构，包括一个卷积阶段和一个标记化Kolmogorov-Arnold网络（Tok-KAN）阶段。输入图像通过编码器传递，其中最初的三个块使用卷积操作，随后是两个标记化的多层感知器（MLP）块。解码器由两个标记化的KAN块和三个卷积块组成。每个编码器块将特征分辨率减半，而每个解码器块将其加倍。此外，编码器和解码器之间集成了跳跃连接。卷积阶段和Tok-KAN阶段中每个块的通道数分别由超参数C1至C3和D1至D3确定。