“MIT全新神经网络结构KANs,200参数顶30万!3天1.4k star!轻松复现Nature封面AI数学研究!”。这个爆火的KANs是一种新型的神经网络,受到Kolmogorov-Arnold表示定理的启发,旨在替代传统的多层感知器(MLPs)。KANs的特点是其激活函数是可学习的,并且位于网络的边(权重)上,而不是节点(神经元)上。KANs没有线性权重矩阵,而是将每个权重参数替换为一个可学习的单变量函数,该函数以样条曲线的形式参数化。相信看完这段后绝大多数读者就晕了,那我试着做一些粗浅的解读。
一、什么是Kolmogorov-Arnold表示定理?
在1900年,数学家大卫·希尔伯特提出了23个数学问题,这些问题被认为是数学领域的重要挑战。第13问题是关于是否存在一个通用的方法,能够用有限次的算术运算和根号运算来表示任意一个七次方程的解。这个问题后来被推广为是否可以用有限个二元连续函数来表示任意多元连续函数。Kolmogorov-Arnold表示定理是对希尔伯特第13问题的一个回答。该定理指出,任意一个定义在有界域上的多变量连续函数都可以表示为有限数量的单变量连续函数的两层嵌套叠加的形式。换句话说,无论一个函数有多少个变量,它都可以通过一系列单变量函数的组合来表达。
简单一句话,Kolmogorov-Arnold表示定理告诉我们,复杂的任务可以通过简单的步骤组合来完成。就像是一个工厂的生产线,每个工人只负责一个简单的步骤,但整个生产线能够生产出复杂的产品。
二、传统多层感知机(MLPs)又是什么?
多层感知机(Multi-layer perceptrons,MLPs)是受到人脑神经元网络连接方式的启发而设计的一种最基本的神经网络结构,它由多个层次组成,包括输入层、一个或多个隐藏层以及输出层。在MLPs中,每个神经元(节点)接收来自前一层神经元的输入,对这些输入进行加权求和,然后通过一个固定的激活函数(如ReLU、sigmoid或tanh)来产生输出。这个输出随后作为下一层神经元的输入。
MLPs 通过反向传播算法进行训练,通过在大量训练数据上进行迭代学习,利用梯度下降来调整权重,直到找到能够准确映射输入到输出的权重集合,以最小化输出和目标值之间的差异。在MLPs中,激活函数是预先定义的,不会在学习过程中改变。这意味着一旦网络结构和激活函数确定,每个神经元的功能也就确定了。网络的学习过程主要是通过调整权重(连接神经元的边的强度)来优化模型的预测能力。
三、KANs与MLPs的区别
在KANs中,激活函数被移动到了权重上。每个权重参数都被替换为一个可学习的1D函数,这些函数通常被参数化为样条(splines)。这意味着网络中的非线性不再是由神经元上的固定激活函数提供的,而是由权重上的可学习函数提供的。神经元本身只进行简单的求和操作,网络的非线性能力完全来自权重上的可学习函数。 通过组合权重上的这些单变量函数,KANs能够逼近复杂的多元函数,就像Kolmogorov-Arnold表示定理所说的那样。这种设计使得KANs具有更大的灵活性和表示能力:
1.权重上的可学习函数允许网络在训练过程中动态调整其非线性行为,而不局限于预设的激活函数。
2.单变量函数比标量权重有更高的表示能力,使得网络能够学习更复杂的关系。
3.通过组合大量的单变量函数,KANs能够逼近任意复杂度的连续函数,具有很强的理论保证。
简单说:在传统的MLPs中,每个神经元通过激活函数引入非线性,这使得网络能够学习复杂的模式。权重表示神经元之间连接的强度,通过调整这些权重,网络可以适应不同的任务。然而,一旦网络结构和激活函数确定,其灵活性和表示能力就受到了限制。
想象一下,如果我们可以给每个连接(即权重)赋予更多的"智能"。不仅仅是调整连接的强弱,而是让每个连接都有自己的"个性"。这就是KANs的核心思想。在KANs中每个权重不再是一个固定的数值,而是一个可以学习的单变量函数。这个函数可以是一条曲线,可以是一个多项式,也可以是其他任何形式,只要它能够描述输入和输出之间的关系。这样一来,网络的表达能力就大大提升了。每个连接都可以学习到一个独特的非线性变换,而不局限于神经元上的激活函数。网络可以通过组合这些单变量函数来逼近任意复杂的函数。
举个例子,如果我们要建模一个复杂的决策过程,传统的MLPs可能需要很多层和很多神经元才能逼近这个过程。但是在KANs中,每个连接都可以学习到决策过程的一部分,然后通过组合这些部分,网络可以更高效地逼近整个决策过程。因此,KANs通过将权重从标量升级为函数,大大增强了网络的灵活性和表示能力。当然,KANs的训练过程会更加复杂,因为我们需要学习每个连接的函数形式,而不仅仅是数值。但是,这种额外的复杂性带来了更强大的表示能力,使得KANs在某些任务上可以超越传统的神经网络。
个人理解,KANs的设计在一定程度上借鉴了生物神经系统的工作原理。在生物神经元中,神经元之间的连接不仅仅是简单的"导线",而是涉及复杂的化学过程,如神经递质的释放和吸收、离子通道的开关等。这些过程使得神经元之间的信息传递具有高度的非线性和可塑性。类似地,KANs中的权重函数可以看作是对这些复杂过程的一种抽象。每个权重函数都可以学习到一个独特的非线性变换,类似于生物神经元连接中的化学过程。通过组合这些非线性变换,KANs可以实现类似于生物神经网络的计算能力。从这个角度看,KANs可以看作是将生物神经系统的某些特性抽象到人工神经网络中的一种尝试。它们展示了如何通过增强神经元连接的表示能力,来提升整个网络的性能。
四、目前KANs表现出的一些能力
1.玩具数据集和特殊函数
研究人员通过一些简单的数学问题(玩具数据集)来测试KANs的能力。他们发现,即使对于那些在数学和物理学中非常复杂的函数(特殊函数),KANs也能很好地学习和表示这些函数。
2.Feynman数据集
在这个部分,研究人员比较了人工设计的KANs和通过一种叫做“修剪”的技术自动优化的KANs。他们发现,自动优化的KANs通常比人工设计的更小、更高效,这意味着KANs能够以更简洁的方式表示复杂的信息。
3.解决偏微分方程
偏微分方程是数学中的一个难题,通常用于描述物理现象,比如流体的流动。研究人员使用KANs来解决这些方程,并发现KANs能够用更少的资源(比如计算时间和内存)得到更好的解决方案。
4.持续学习
持续学习是指机器学习模型在学习新任务时不会忘记旧任务的能力。KANs由于其特殊的结构,能够更好地保留旧知识,同时学习新知识,这与人类大脑的学习方式更为相似。
五、KANs的潜力和未来的研究方向
Kolmogorov-Arnold Networks(KANs)作为一种新型的神经网络架构,不仅在理论上提供了更快的神经网络扩展律,而且在实践中展示了其在处理复杂任务时的优越性能。通过将激活函数移动到权重上,并允许这些函数在学习过程中动态调整,KANs极大地增强了网络的灵活性和表示能力。这种设计不仅使得KANs在玩具数据集、特殊函数、偏微分方程求解以及持续学习等领域表现出色,而且还为深度学习模型的发展开辟了新的道路。
未来,随着对KANs研究的深入,我们期待看到更多关于其理论基础的探索,以及在更广泛应用场景中的实际应用。同时,KANs的可解释性和交互性也为机器学习模型的透明度和可信度提供了新的视角。随着技术的进步,KANs有望成为连接理论数学与实际应用的桥梁,推动人工智能领域向着更加高效、可解释和智能的方向发展。