荣登Nature!KAN + Transformer融合新成果再突破

2025深度学习发论文&模型涨点之——KAN + Transformer

Transformer架构依赖多层感知器(MLP)层来混合通道信息,但MLP在参数效率和可解释性方面存在局限性。KAN基于Kolmogorov-Arnold表示定理,通过可学习的激活函数逼近复杂函数关系,展现出较高的准确性和可解释性。然而,原始KAN在扩展到大规模模型时面临挑战,包括基函数未针对现代硬件优化、参数和计算效率低下以及权重初始化困难等问题。

          • 有理基础:用有理函数替换B样条函数,提高与GPU的兼容性。

          • Group KAN:通过神经元共享激活权重,减少计算负载。

          • 方差保持初始化:确保跨层激活方差的稳定性。

          小编整理了一些KAN + Transformer论文】合集,以下放出部分,全部论文PDF版皆可领取。

          需要的同学扫码添加我

          回复“KAN + Transformer”即可全部领取

          图片

          论文精选

          论文1:

          KAN4TSF: Are KAN and KAN-based models Effective for Time Series Forecasting?

          KAN4TSF:KAN及其基于KAN的模型是否适用于时间序列预测?

          方法

            • Kolmogorov-Arnold Network (KAN):基于Kolmogorov-Arnold表示定理,通过有限的单变量连续函数组合来表示多变量连续函数,建立了网络大小与输入形状之间的关系。

              Reversible Mixture of KAN Experts (RMoK):提出了一种基于KAN的混合专家模型,使用多个KAN变体作为专家,并通过门控网络自适应地将变量分配给特定的专家进行预测。

              RevIN:使用可学习的仿射变换对输入时间序列进行归一化和反归一化,以提高模型的鲁棒性。

              实验验证:在七个真实世界数据集上与多种基线模型进行性能、集成、速度和可解释性的比较。

              图片

            创新点

                  • 性能提升:RMoK在多个时间序列预测任务中取得了最佳性能,平均性能优于现有方法。

                    模型集成:通过将KAN集成到Transformer架构中,进一步提升了模型性能,证明了KAN在时间序列预测中的适用性。

                    计算效率:KAN模型在保持高性能的同时,具有较低的计算复杂度,运行速度与线性模型相当。

                    可解释性:通过可视化时间特征权重与数据周期性的关系,初步解释了KAN在时间序列预测中的有效性。

                    图片

                  论文2:

                  Leveraging FourierKAN Classification Head for Pre-Trained Transformer-based Text Classification

                  利用傅里叶KAN分类头提升预训练Transformer文本分类性能

                  方法

                      • 傅里叶KAN(FR-KAN):提出了一种基于傅里叶系数的KAN分类头,用于替代传统的多层感知机(MLP)分类头。

                        KAN架构:基于Kolmogorov-Arnold表示定理,通过非线性函数的组合来学习数据的复杂模式,避免了MLP中固定的非线性激活函数。

                        预训练Transformer:利用预训练的Transformer模型生成上下文嵌入,然后通过FR-KAN分类头进行分类。

                        实验验证:在四个文本分类任务和七个预训练Transformer模型上进行实验,验证FR-KAN的性能提升。

                        图片

                      创新点

                              • 性能提升:FR-KAN分类头在多个文本分类任务中平均准确率提升了10%,F1分数提升了11%,显著优于传统MLP分类头。

                                参数效率:FR-KAN分类头在保持高性能的同时,所需的参数数量更少,训练速度更快。

                                模型适用性:证明了KAN架构在自然语言处理任务中的适用性,尤其是在资源受限的环境中表现更优。

                                图片


                              论文3:

                              Network Intrusion Detection Based on Feature Image and Deformable Vision Transformer Classification

                              基于特征图像和可变形视觉Transformer的网络入侵检测

                              方法

                              • 特征图像:将网络入侵检测数据转换为图像数据,通过图像分类算法进行入侵检测。

                                可变形注意力机制:引入可变形注意力机制,选择性地关注关键区域,减少计算成本和内存消耗。

                                可变形卷积:使用可变形卷积代替普通卷积,扩大每个补丁的感受野,增强模型对全局信息的感知能力。

                                分层焦点损失函数:提出分层焦点损失函数(L-Focal loss),解决数据不平衡问题,提高分类性能。

                                图片

                              创新点

                                      • 性能提升:在CIC IDS2017数据集上准确率达到99.5%,UNSW-NB15数据集上准确率达到97.25%,显著高于其他主流算法。

                                        特征提取优化:通过可变形卷积和可变形注意力机制,模型能够更有效地提取特征,关注相关区域,减少计算成本。

                                        数据不平衡处理:分层焦点损失函数有效解决了数据不平衡问题,提高了模型对少数类别的分类能力。

                                        图片


                                      论文4:

                                      Emerging Trends in Autonomous Vehicle Perception: Multimodal Fusion for 3D Object Detection

                                      自动驾驶车辆感知的新兴趋势:多模态融合用于3D目标检测

                                      方法

                                        • U-KAN架构:将Kolmogorov-Arnold Networks(KAN)集成到U-Net架构中,通过分层的KAN层增强模型的非线性建模能力和可解释性。

                                          分层KAN块:在U-Net的瓶颈附近引入分层的KAN块,将中间特征投影到标记空间,并应用KAN操作提取信息模式。

                                          扩散模型扩展:将U-KAN扩展到扩散模型中,作为噪声预测器,验证其在生成任务中的潜力。

                                          实验验证:在多个医学图像分割和生成任务中验证U-KAN的性能,与现有方法进行比较。

                                          图片

                                        创新点

                                            • 性能提升:在医学图像分割任务中,U-KAN在多个数据集上取得了最高的IoU和F1分数,平均性能优于现有方法。

                                              效率提升:U-KAN在保持高性能的同时,具有较低的计算复杂度(Gflops)和参数数量,与现有方法相比具有显著优势。

                                              可解释性增强:KAN层的引入提高了模型的可解释性,能够更准确地激活与目标区域相关的特征,提升模型的决策透明度。

                                              生成任务潜力:在扩散模型中,U-KAN作为噪声预测器表现出色,生成的图像在FID和IS指标上优于现有方法,证明了其在生成任务中的潜力。

                                              图片

                                            小编整理了KAN + Transformer文代码合集

                                            需要的同学扫码添加我

                                            回复“ KAN + Transformer”即可全部领取

                                            图片

                                            ### KAN Transformer 示例代码实现 #### 背景介绍 Vision-KAN 是一种创性的注意力机制网络,旨在增强视觉转换器(Vision Transformer)的能力[^1]。通过将 Kernel Attention Network (KAN) 整合到现有的架构中,可以显著提升模型性能并提供更好的解释性[^2]。 #### 代码实现 下面是一个简单的 Python 代码示例,展示了如何在 PyTorch 中集成 KANTransformer 架构: ```python import torch from torch import nn class KanAttention(nn.Module): def __init__(self, dim, num_heads=8, qkv_bias=False, attn_drop=0., proj_drop=0.): super().__init__() self.num_heads = num_heads head_dim = dim // num_heads self.scale = head_dim ** -0.5 self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias) self.attn_drop = nn.Dropout(attn_drop) self.proj = nn.Linear(dim, dim) self.proj_drop = nn.Dropout(proj_drop) def forward(self, x): B, N, C = x.shape qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4) q, k, v = qkv.unbind(0) # make torchscript happy (cannot use tensor as tuple) attn = (q @ k.transpose(-2, -1)) * self.scale attn = attn.softmax(dim=-1) attn = self.attn_drop(attn) x = (attn @ v).transpose(1, 2).reshape(B, N, C) x = self.proj(x) x = self.proj_drop(x) return x class KanTransformerBlock(nn.Module): def __init__(self, dim, num_heads, mlp_ratio=4., qkv_bias=False, drop=0., attn_drop=0., drop_path=0., act_layer=nn.GELU, norm_layer=nn.LayerNorm): super().__init__() self.norm1 = norm_layer(dim) self.attn = KanAttention( dim, num_heads=num_heads, qkv_bias=qkv_bias, attn_drop=attn_drop, proj_drop=drop) # NOTE: drop path for stochastic depth, we shall see if this is better than dropout here self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity() self.norm2 = norm_layer(dim) mlp_hidden_dim = int(dim * mlp_ratio) self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop) def forward(self, x): x = x + self.drop_path(self.attn(self.norm1(x))) x = x + self.drop_path(self.mlp(self.norm2(x))) return x ``` 此代码定义了一个 `KanAttention` 类来处理自注意计算,并将其嵌入到了标准的 Transformer block 结构之中。该结构允许更灵活地调整参数设置以适应不同的应用场景需求[^3]。
                                            评论
                                            添加红包

                                            请填写红包祝福语或标题

                                            红包个数最小为10个

                                            红包金额最低5元

                                            当前余额3.43前往充值 >
                                            需支付:10.00
                                            成就一亿技术人!
                                            领取后你会自动成为博主和红包主的粉丝 规则
                                            hope_wisdom
                                            发出的红包
                                            实付
                                            使用余额支付
                                            点击重新获取
                                            扫码支付
                                            钱包余额 0

                                            抵扣说明:

                                            1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
                                            2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

                                            余额充值