KAN爆火至今,关于它和Transformer谁更强的问题还没定论,这俩结合的工作效果却愈发出众了,短时间内就有了不少高质量论文发表。
不得不说,这是一种富有创新性的尝试,利用了KAN的灵活性和可解释性,以及Transformer的强表示能力和序列处理能力,创造了一个在复杂数据任务中更加高效、灵活且易于理解的模型。这种结合模型可以应用于时间序列预测等多个领域,显著提高性能以及准确性,是未来非常有潜力的研究方向。
更赞的一点是,KAN是新技术,还没那么卷,所以KAN+Transformer创新空间大,还有很多优秀成果给我们作参考,可以说是一个很好发论文的方向了。
为了帮同学们抓紧机会,我已经挑选好了8篇KAN结合Transformer的优秀paper分享,代码基本都有,想速发高质量论文的别错过啦。
论文原文+开源代码需要的同学看文末
HyperKAN: Kolmogorov-Arnold Networks make Hyperspectral Image Classificators Smarter
方法:论文提到了 KAN-Transformer Block 的使用,这是用于替代原始 SSFTT(可能是指某个特定的 Transformer 模型)架构设计中的两个全连接线性层。具体来说,通过使用 KAN-GPT 实现(一种为 Transformer 架构设计的 KAN 实现),保持了与原始 SSFTT 实现相同的输入和输出维度,同时在注意力机制(Attention Block)和 MLP 块中使用了 KAN。
创新点;
-
将KAN引入高光谱图像分类领域,这是一种与传统多层感知器(MLP)不同的神经网络设计,它通过在网络边缘使用可学习的函数来增强模型的预测能力。
-
进一步将 KAN 集成到包括一维、二维和三维卷积网络以及 Transformer 架构中,以提高分类性能。
-
验证了 KAN 网络在多个高光谱图像数据集上的有效性,不仅提高了分类精度,还减少了模型参数数量、计算复杂度和训练时间,从而提升了整体的分类效率。
Demonstrating the efficacy of Kolmogorov-Arnold networks in vision tasks
方法:KAN-Mixer 架构利用了 KAN 层,并且与 MLP-Mixer 架构相似,直接在图像块上操作,并在所有级别上保持相同的分辨率和尺寸表示。KAN-Mixer 通过专门的模块执行通道混合和空间混合,在MNIST数据集上表现出色,达到了98.16%的测试准确率。
创新点:
-
引入了基于KAN的方法来进行视觉任务,只使用了KAN层,即KAN-Mixer。这种架构与MLP-Mixer有很多相似之处,包括直接在图块上操作并在所有层级上保持相等的分辨率和大小表示。
-
在视觉任务中具有开创性的性能:由于现有的研究还没有广泛地证明了KAN在视觉任务中的性能,该方法在这一领域开创了KAN的应用。
KAN4TSF: Are KAN and KAN-based models Effective for Time Series Forecasting?
方法:论文中提出的Reversible Mixture of KAN Experts (RMoK) 模型使用了混合专家(Mixture of Experts, MoE)结构,这与Transformer中的自注意力机制可以结合使用,以提高模型在处理时间序列数据时的性能。
创新点:
-
首次全面讨论了繁荣的KAN对时间序列预测的有效性。
-
提出了可逆的KAN专家混合模型(RMoK),通过使用多个KAN变体作为专家和一个门控网络来自适应地分配变量进行预测,以在性能和可解释性之间保持平衡。
A Temporal Kolmogorov-Arnold Transformer for Time Series Forecasting
方法:论文提出了将KANs与Transformer结构结合起来用于时间序列预测的新型架构TKAT。TKAT 从 Temporal Fusion Transformer中获得灵感,采用了TKANs作为其核心组件。TKANs是 KANs 的一种扩展,它增加了时间依赖性和记忆管理,使其更适合处理序列数据。
创新点:
-
将KAN的数学基础与Transformer模型的自注意力机制结合,形成新的架构。
-
特别为时间序列预测设计,通过TKAN层改进了对时间数据的处理能力。
-
提高了模型对时间序列预测的解释性,并在多步预测任务中展现出更好的性能。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“KAN结合”获取全部论文+开源代码
码字不易,欢迎大家点赞评论收藏