算法进阶 | KAN2.0:AI+Science的统一新范式

本文来源公众号“算法进阶”,仅用于学术分享,侵权删,干货满满。

原文链接:KAN2.0:AI+Science的统一新范式

神经网络目前是人工智能中最强大的工具。当它们应用于更大的数据集时,没有什么可与之抗衡。Perimeter Institute for Theoretical Physics 的研究员 Sebastian Wetzel(opens a new tab) 说。

然而,一直以来,神经网络一直处于劣势。当今许多成功网络的基本构建块被称为多层感知器 (MLP)。但是,尽管取得了一系列成功,人类还是无法理解建立在这些 MLP 上的网络是如何得出结论的,或者是否可能有一些基本原理可以解释这些结果。神经网络所执行的惊人壮举,就像魔术师的壮举一样,被保密,隐藏在通常所说的黑匣子后面。

长期以来,AI 研究人员一直想知道,是否有可能让不同类型的网络以更透明的方式提供同样可靠的结果。

2024 年 4 月的一项研究(opens a new tab) 引入了一种替代神经网络设计,称为 Kolmogorov-Arnold 网络 (KAN),它更加透明,但也可以完成常规神经网络解决某类问题的几乎所有工作。它基于 20 世纪中叶的一个数学思想,该思想已被重新发现并重新配置,以便在深度学习时代进行部署。

虽然这项创新才刚刚推出几个月,但新设计已经引起了研究和编码社区的广泛兴趣。“KAN 的可解释性更强,对于科学应用可能特别有用,因为它们可以从数据中提取科学规则,”约翰霍普金斯大学的计算机科学家 Alan Yuille(opens a new tab) 说。“[它们] 是无处不在的 MLP 的令人兴奋的新颖替代品。”研究人员已经在学习充分利用他们新发现的能力。

论文题目:KAN: Kolmogorov-Arnold Networks

论文地址:https://arxiv.org/abs/2404.19756

 KAN:拟合不可能

典型的神经网络是这样工作的:人工神经元(或节点)层使用人工突触(或边缘)相互连接。信息通过每一层,在那里被处理并传输到下一层,直到它最终成为输出。对边进行加权,因此权重较大的边比其他边具有更大的影响力。在称为训练的时期,这些权重会不断调整,以使网络的输出越来越接近正确答案。

神经网络的一个常见目标是找到最能连接某些数据点的数学函数或曲线。网络越接近该函数,其预测就越好,结果就越准确。如果您的神经网络对某个物理过程进行建模,则输出函数将理想地表示描述物理学的方程式,相当于物理定律。

对于 MLP,有一个数学定理可以告诉您网络可以达到最佳功能的距离。该定理的一个结果是 MLP 不能完美地表示该函数。

但是,在适当的情况下,KAN 可以。

KANs 以与 MLP 完全不同的方式进行功能拟合 — 连接网络输出的点。KANs 不依赖于具有数值权重的边,而是使用函数。这些边函数是非线性的,这意味着它们可以表示更复杂的曲线。它们也是可学习的,因此可以比 MLP 的简单数值权重更敏感地进行调整。

然而,在过去的 35 年里,人们认为 KAN 从根本上是不切实际的。麻省理工学院 (Massachusetts Institute of Technology) 的物理学家转为计算神经科学家的 Tomaso Poggio 于 1989 年合著的一篇论文(opens a new tab) 明确指出,KAN 核心的数学思想“在学习网络的背景下无关紧要”。

Poggio 的一个担忧可以追溯到 KAN 核心的数学概念。1957 年,数学家安德烈·科尔莫戈罗夫(opens a new tab) 和弗拉基米尔·阿诺德(opens a new tab) 在单独的互补论文中表明,如果你有一个使用许多变量的数学函数,你可以将其转换为多个函数的组合,每个函数都有一个变量。

然而,有一个重要的问题。定理吐出的单变量函数可能不是“平滑的”,这意味着它们可以像 V 的顶点一样具有锋利的边缘。对于任何试图使用定理重新创建多变量函数的网络来说,这都是一个问题。更简单的单变量部分需要平滑,以便它们可以在训练过程中学会以正确的方式弯曲,以匹配目标值。

因此,KANs 的前景似乎很渺茫——直到今年 1 月的一个寒冷的日子,麻省理工学院的物理学研究生 Ziming Liu(opens a new tab) 决定重新审视这个主题。他和他的导师、麻省理工学院物理学家马克斯·泰格马克(opens a new tab) 一直在努力使神经网络更容易被科学应用所理解,希望能让我们窥探黑匣子的真相,但事情并没有顺利。在绝望中,Liu 决定研究 Kolmogorov-Arnold 定理。他问道:“为什么不直接尝试一下,看看它是如何工作的,即使人们过去没有给予它太多的关注呢?

Ziming Liu 使用 Kolmogorov-Arnold 定理构建了一种新型神经网络。

Tegmark 熟悉 Poggio 的论文,并认为这种努力会导致另一个死胡同。但刘并没有被吓倒,Tegmark 很快就出现了。他们认识到,即使定理生成的单值函数不平滑,网络仍然可以用平滑函数来近似它们。他们进一步了解到,我们在科学中遇到的大多数函数都是平滑的,这将使完美(而不是近似)表示有可能实现。Liu 不想在没有先尝试的情况下放弃这个想法,因为她知道自 35 年前 Poggio 的论文发表以来,软件和硬件已经取得了巨大的进步。从计算上讲,2024 年的许多事情都是可能的,这在 1989 年甚至是无法想象的。

Liu 花了大约一周的时间研究这个想法,在此期间,他开发了一些原型 KAN 系统,所有系统都有两层——最简单的网络,以及研究人员几十年来一直关注的类型。两层 KAN 似乎是显而易见的选择,因为 Kolmogorov-Arnold 定理本质上为这种结构提供了蓝图。该定理专门将多变量函数分解为不同的内部函数和外部函数集。(这些代替沿边的激活函数,这些函数替代 MLP 中的权重。这种排列自然而然地适合于具有神经元内层和外层的 KAN 结构——这是简单神经网络的常见排列。

但令 Liu 沮丧的是,他的原型在他心目中与科学相关的琐事上都没有表现良好。Tegmark 随后提出了一个关键建议:为什么不尝试使用具有两层以上层的 KAN,它可能能够处理更复杂的任务?

这种开箱即用的想法正是他们需要的突破。Liu 刚刚起步的人际网络开始显示出希望,因此两人很快就联系了麻省理工学院、加州理工学院和东北大学的同事。他们希望他们的团队中有数学家,以及他们计划让 KAN 分析的领域的专家。

在他们 4 月份的论文(opens a new tab) 中,该小组表明具有三层的 KAN 确实是可能的,并提供了一个可以精确表示函数的三层 KAN 示例(而两层 KAN 则不能)。他们并没有就此止步。此后,该小组试验了多达六层,每一层,网络都能够与更复杂的输出函数保持一致。“我们发现,基本上,我们可以根据需要堆叠任意数量的图层,”合著者之一 Yixuan Wang(opens a new tab) 说。

 经过验证的改进

作者还在两个现实世界的问题上放宽了他们的网络。第一个与称为结理论的数学分支有关。2021 年,DeepMind 的一个团队宣布他们已经构建了一个 MLP,可以在获得足够多的结的其他属性后预测给定结的某个拓扑属性。三年后,新的 KAN 复制了这一壮举。然后,它更进一步,展示了预测的属性如何与所有其他属性相关联——Liu 说,这是“MLP 根本做不到的事情”。

第二个问题涉及凝聚态物理学中一种称为 Anderson 局部化的现象。目标是预测特定相变将发生的边界,然后确定描述该过程的数学公式。从来没有 MLP 能够做到这一点。他们的 KAN 做到了。

但 Tegmark 说,KAN 相对于其他形式的神经网络的最大优势,以及它们最近发展背后的主要动机,在于它们的可解释性。在这两个例子中,KAN 不仅仅是吐出一个答案;它提供了一个解释。他问道:“某物是可解释的是什么意思?“如果你给我一些数据,我会给你一个公式,你可以写在 T 恤上。”

约翰霍普金斯大学研究机器学习的物理学家 Brice Ménard(opens a new tab) 说,KAN 执行此操作的能力虽然到目前为止是有限的,但表明这些网络理论上可以教会我们关于世界的新知识。“如果问题实际上是用一个简单的方程来描述的,那么 KAN 网络非常擅长找到它,”他说。但他警告说,KANs 最擅长的领域可能仅限于问题,例如物理学中发现的问题,在这些领域中,方程式的变量往往非常少。

Liu 和 Tegmark 同意,但并不认为这是一个缺点。Tegmark 说,“几乎所有著名的科学公式”——例如 E = mc2——“都可以用一个或两个变量的函数来写”。“我们所做的绝大多数计算都依赖于一两个变量。KANs 利用这一事实并寻找这种形式的解决方案。

终极方程

Liu 和 Tegmark 的 KAN 论文很快引起了轰动,在大约三个月内获得了 75 次引用。很快,其他小组开始开发自己的 KAN。清华大学的 Yizheng Wang 等人于 6 月在网上发表的一篇论文(opens a new tab) 显示,他们的 Kolmogorov-Arnold 信息神经网络 (KINN) 在求解偏微分方程 (PDE) 方面“明显优于”MLP。这不是一件小事,Wang 说:“偏微分方程在科学中无处不在。

新加坡国立大学(National University of Singapore)的研究人员在7月的一篇论文(opens a new tab)中的观点更加复杂。他们得出结论,KAN 在与可解释性相关的任务中优于 MLP,但发现 MLP 在计算机视觉和音频处理方面表现更好。这两个网络在自然语言处理和其他机器学习任务方面大致相等。对 Liu 来说,这些结果并不令人惊讶,因为最初的 KAN 小组一直专注于“与科学相关的任务”,其中可解释性是重中之重。

同时,Liu 正在努力使 KAN 更实用、更易于使用。8 月,他和他的合作者发表了一篇名为“KAN 2.0”的新论文(opens a new tab),他将其描述为“更像一本用户手册,而不是传统论文”。Liu 说,这个版本更加用户友好,提供了乘法工具以及其他功能,这是原始模型中所缺乏的。

他和他的合著者坚持认为,这种类型的网络不仅仅是达到目的的手段。KAN 促进了该组织所谓的“好奇心驱动的科学”,这与长期以来主导机器学习的“应用程序驱动科学”相辅相成。例如,在观察天体的运动时,应用驱动的研究人员专注于预测它们的未来状态,而好奇心驱动的研究人员则希望揭示运动背后的物理原理。Liu 希望,通过 KAN,研究人员可以从神经网络中获得更多收益,而不仅仅是帮助解决原本令人生畏的计算问题。他们可能会专注于简单地为了理解本身而获得理解。

论文题目:KAN 2.0: Kolmogorov-Arnold Networks Meet Science

论文地址:https://arxiv.org/abs/2408.10205

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值