Kolmogorov-Arnold Convolutions (KAN Convolutions) : 当KAN遇到卷积

最新推荐文章于 2024-11-24 13:32:01 发布

Phoenixtree_DongZhao

最新推荐文章于 2024-11-24 13:32:01 发布

阅读量1.6k

点赞数 23

分类专栏： KAN MyDLNote-Network 文章标签： KAN CNN

本文链接：https://blog.csdn.net/u014546828/article/details/141076478

版权

MyDLNote-Network 同时被 2 个专栏收录

45 篇文章

订阅专栏

KAN

2 篇文章

订阅专栏

Kolmogorov-Arnold Convolutions:

Design Principles and Empirical Studies

GitHub | Arxiv

ABSTRACT

The emergence of Kolmogorov-Arnold Networks (KANs) has sparked significant interest and debate within the scientific community. This paper explores the application of KANs in the domain of computer vision (CV). We examine the convolutional version of KANs, considering various nonlinearity options beyond splines, such as Wavelet transforms and a range of polynomials. We propose a parameter-efficient design for Kolmogorov-Arnold convolutional layers and a parameterefficient finetuning algorithm for pre-trained KAN models, as well as KAN convolutional versions of self-attention and focal modulation layers. We provide empirical evaluations conducted on MNIST, CIFAR10, CIFAR100, Tiny ImageNet, ImageNet1k, and HAM10000 datasets for image classification tasks. Additionally, we explore segmentation tasks, proposing U-Net-like architectures with KAN convolutions, and achieving state-of-the-art results on BUSI, GlaS, and CVC datasets. We summarized all of out finding in a preliminary design guide of KAN convolutional models for computer vision tasks. Furthermore, we investigate regularization techniques for KANs. All experimental code and implementations of convolutional layers and models, pre-trained on ImageNet1k weights are available on GitHub: https://github.com/IvanDrokin/torch-conv-kan.

INTRODUCTION

现有深度学习架构的局限性

1 CNNs的局限性：

固定激活函数和线性变换：传统的CNNs主要依赖固定的激活函数（如ReLU、Sigmoid等）和线性变换来捕捉空间关系。这种设计在处理复杂空间数据时虽然有效，但缺乏足够的灵活性和表达力。

参数效率低：尽管CNNs在图像分类和分割等任务中取得了显著成果，但其庞大的参数量可能导致过拟合，特别是在训练大型和深层网络时。

2 KANs的局限性：

计算复杂性和高参数数量：KANs通过引入可学习的样条函数（如B-splines）替代传统MLPs中的线性权重矩阵，减少了参数数量并可能提高了泛化能力。然而，样条函数的计算复杂度较高，导致训练和推理过程中的资源消耗较大。

扩展性受限：传统的KANs主要基于全连接层，难以直接应用于需要大量空间信息处理的图像数据。

引入Kolmogorov-Arnold Convolutions的动机

1 提高灵活性和效率：

结合CNN和KAN的优势：通过将KANs的非线性激活函数集成到卷积层中，可以构建Convolutional KANs（卷积型KANs），这种新的层类型既保持了CNN在处理图像数据时的效率，又通过KANs的样条函数增强了其灵活性和表达力。

减少参数数量：通过引入Bottleneck Convolutional Kolmogorov-Arnold层，可以显著减少参数数量，降低内存需求，并可能缓解过拟合问题。

2 探索新型非线性激活函数：

超越样条函数：文章探索了多种非线性选项，如小波变换和多项式（包括Gram多项式、Chebyshev多项式等），以替代传统的样条函数。这些新的基础函数不仅可能减少计算复杂性，还可能提高模型的性能。

3 优化预训练模型的适应性和迁移能力：

参数高效微调算法：提出了针对Gram多项式变体的Kolmogorov-Arnold卷积网络的参数高效微调算法（PEFT），旨在减少在将预训练模型适应到新任务时所需的训练参数数量。

4 改进自注意力和焦点调制层：

提升分类模型性能：通过重新设计基于Bottleneck Convolutional Kolmogorov-Arnold层的自注意力（Self-KAGtention）和焦点调制（Focal KAGN Modulation）层，文章旨在显著提升分类模型的性能。

实证研究和应用验证

1 广泛的数据集验证：

图像分类任务：在MNIST、CIFAR10、CIFAR100、Tiny ImageNet、ImageNet1k和HAM10000等多个数据集上进行了实证评估，验证了Convolutional KANs在图像分类任务中的有效性和性能优势。

分割任务：提出了基于KAN卷积的U-Net架构，并在BUSI、GlaS和CVC等生物医学数据集上取得了最先进的分割结果。

2 设计原则和指南：

构建成功模型的设计原则：基于实证研究结果，文章总结了构建基于Bottleneck Convolutional Kolmogorov-Arnold层的计算机视觉模型的设计原则，为未来的研究和应用提供了有价值的指导。

METHOD

Kolmogorov-Arnold Convolutions (KAN Convolutions)

Kolmogorov-Arnold定理指出，任何多变量函数都可以表示为一系列单变量函数的叠加。在文章中，KAN卷积层的核心思想是将这一原理应用于卷积神经网络中。KAN卷积层的输出可以表示为：

其中，b(x) 是基函数，通常选择为SiLU激活函数（Sigmoid Linear Unit），即：

ϕ~(x) 是由一组单变量非线性函数通过权重加权求和得到的：

其中，ti 是第 i 个单变量非线性函数（可以是样条函数、多项式等），n(x) 是输入数据 x 经过某种变换后的结果（例如，多项式变换）。

Bottleneck Kolmogorov-Arnold Convolutions

为了解决KAN卷积层中基础函数引入大量参数的问题，文章提出了瓶颈版本的KAN卷积层。这种方法在基础函数应用前后分别使用压缩卷积和扩展卷积：

压缩卷积：使用一层编码器从输入中提取有意义的特征。

应用基础函数：将压缩后的特征输入到基础函数中。

扩展卷积：使用一层解码器将处理后的特征恢复到原始维度。

瓶颈设计中还引入了混合专家（mixture of experts）机制，在编码器和解码器卷积之间稀疏地应用。

Self-KAGN Attention 和 Focal Modulation

Self-KAGN Attention：将传统的自注意力层中的卷积替换为KAN卷积层。

Focal KAGN Modulation：将原始焦点调制层中的所有卷积层替换为KAN卷积层。

这些技术旨在通过引入KAN卷积来增强网络的特征表示能力。

Regularization Techniques

在KAN卷积网络中应用的正则化技术包括：

权重和激活惩罚：通过添加L1或L2惩罚项来限制模型的复杂性。

Dropout：在适当的位置应用dropout来防止过拟合，但需要谨慎选择位置。

加性高斯噪声注入：在激活或权重中添加噪声以增加模型的鲁棒性。

Parameter-Efficient Fine-tuning

文章还讨论了针对多项式变体的Kolmogorov-Arnold卷积网络的参数有效微调（PEFT）算法，以减少可训练参数的数量，同时适应预训练模型到新任务。

具体实现

多项式版本的KAN卷积：不是直接在 x 上计算样条，而是使用Gram、Chebyshev、Legendre等多项式。

参数选择：实验中选择了不同的多项式类型和参数设置，并通过实验确定了最优的L1权重衰减、L2激活惩罚和dropout率等。