大模型技术论文每个月新增上千,本专栏精选重点解读的论文围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区,可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。技术宅麻烦死磕LLM背后的基础模型。当然最重要的是订阅跟随“鲁班模锤”。
上篇文章初步的介绍了KAN,记得在《重新审视神经网络》这篇文章中提及,任何人都可以构建自己心目中的神经网络。当小编还在准备Mamba,说时迟,那时快。在不断发展的AI领域,五一期间来自麻省理工学院的创新框架柯尔莫哥洛夫-阿诺德网络(KAN)正在准备以独特的模式改变传统多层感知机模型。
KAN的可解释性
KAN的结构有助于更清楚地理解输入如何通过函数转换。每个样条函数对数据的影响比深度MLP(神经网络)中不透明的转换更容易观察和理解。
观察上图,任务A假定从f(x, y)=xy这个函数抽样了一些数值进行训练。可以通过可视化发现[2, 5, 1]的KAN被剪枝成[2, 2, 1]的KAN。通过可视化界面可以观测在网络中KAN将xy拆解成 。这里麻烦请大家仔细看图A,以便理解“函数即参数”的KAN。
第一层:x和y在有两个变换,分别实现了x+y和x2 + y2。
第二层:针对(x+y)的输出使用了f(a)=a2的激活函数,(x2 + y2)的输出使用了f(a)=-a的激活函数。
第三层:将第二层的输出累加
任务B是将f(x, y)=x/y。而KAN则给出了这样的解答exp(logx − logy)。任务C是将[0, 1]中的实数转换为其小数点后第一个十进制数字,例如 0.0519→[1, 0, 0, 0, 0, ··· ], 0.212→[0, 0, 1, 0, 0,····]。 通过可视化的界面会发现激活函数聪明的学到了相应十进制数字周围的尖峰。
任务D,E,F也是人别求解一些复杂函数的近视模拟,从可视化界面可以看到效果十分显著。
KAN无监督学习的实验
通过使用样条曲线,KAN 以更精细地调整其对输入数据的转换,在复杂模式的数据场景下,相对于刚性结构的MLP有着更加细腻的刻画。
MLP中的每个权重都被 KAN 中的样条函数取代,样条函数可以在学习的过程中不断地调整形状(激活函数形态)。与 MLP 相比,这种特性通常会使得KAN以少量的参数获取更高的精度。
假定需要找寻一个函数f(x1, x2, · · · , xd) ≈ 0。KAN在不同的种子下面将输入自动的分组,基本上能够达到无监督的学习。怎么解释呢,假定一组特征(x1, x2, x3)数据隐藏着条件x3=exp(sin(πx1) +x2*x2)。也就是其中有个f肯定是f(x1, x2, x3) = sin(πx1) + x2*x2 − log(x3) = 0,那么通过KAN的学习,其实能够自动识别出个中的关系,达到降维的目的。
KAN的监督学习实验
之前有实验利用监督学习和人类领域专家得出了新的代数和几何的结不变量(knot invariants)的新定理。在整个场景下,这种情况下,显著性的梯度明确了这个监督学习的关键不变量,最终导致领域专家做出猜想,随后被得到完善和证明。KAN是否可以在同一问题上取得良好的可解释结果,预测节的形状(signature)。
之前的实验第一步用神经网络的方法确定了形状(signature)σ主要是依赖于经线距离相关变量μ (真实μr, 想象μi)和纬线距离变量λ。第二步人类专家按照提示稍后也发现σ 和slope有着高度的相关性(下图左侧的公式)。
通过KAN直接构建的网络如下图,最下面一层有两条颜色较粗的线,KAN也找出来了。KAN重新发现了之前Deepmind结果中形状(signature)主要还是依赖于经线平移相关变量,而不需要人类科学家再次分析。
而两者之间的网络架构、参数和准确率的对比如下图(金牌!):
除此之外,还有重新发现刚才数据库中的一些潜在数学关系。
更有意思的是在AI数学领域,KAN也是一把好手,层数不多准确率又高。总而言之在函数和公式领域,无论数学或者物理,那都是妥妥的~
记忆能力
从KAN的架构和模式而言,它的记忆能力也是可以的,毕竟有那么多的神经末梢。研究人员做了一个实验,产生5个高斯峰的数据,让mlp和KAN去回归,构建模拟的网络。结果发现KAN能够避免灾难性的忘记,下图为五个阶段的学习成果。当然这个战场天生有利于KAN,比较图1有很明显的函数特性。
那么碰到具体的场景怎么选?下图给出了提示,也给读者留下一道选择题。欢迎留言互动。至于KAN的代码和可视化编码,下期见!尽请关注“鲁班模锤”!