【AI学习】Mamba学习(十四):S5模型的矩阵A对角化 S5模型之所以能够实现并行扫描,是因为之前有研究发现,HiPPO矩阵的对角近似可以实现相当的表现。于是,HiPPO的A矩阵可以以对角化矩阵的方式进行处理。
【论文速读】MetaGPT的最新研究:《SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning》 这篇文章介绍了一种“AI自主设计AI”的方法。主要方法是通过蒙特卡洛树搜索(MCTS)和LLM Agents,LLM Agents将任务进行分解规划生成搜索空间,然后树搜索,然后反复迭代。
【AI学习】Mamba学习(十三):简单了解S5模型,S5论文速读 使用结构化状态空间序列(S4)层的模型在长距离序列建模任务中取得了最先进的性能。S4层结合了线性状态空间模型(SSM)、HiPPO框架和深度学习来实现高性能。我们以S4层的设计为基础,引入了一个新的状态空间层,即S5层。S4层使用许多独立的单输入、单输出SSM,而S5层使用一个多输入、多输出SSM。我们在S5和S4之间建立了一个连接,并利用它来开发S5模型所使用的初始化和参数化。其结果是,状态空间层可以利用高效且广泛实施的并行扫描,使S5的计算效率与S4相匹配,同时在几个远程序列建模任务上实现了最先进的性能
【AI学习】Mamba学习(十二):深入理解S4模型 HiPPO A矩阵在线性代数意义上是高度非正规的,这阻碍了传统算法技术的应用。因此,尽管 LSSL 表明 SSM 具有很强的性能,但它们目前作为通用序列建模解决方案在计算上是不切实际的。S4将HiPPO 矩阵A分解为正规矩阵和低秩矩阵的和,使得A可以被稳定地对角化;利用Woodbury identity和Cauchy核的计算,将SSM的计算复杂度从O(N^2L)降低到O(N+L)
【AI学习】Mamba学习(十一):S4,《Efficiently Modeling Long Sequences with Structured State Spaces》 S4(Structured State Space sequence model)的序列模型,旨在有效处理长距离依赖(LRDs)。尽管现有的模型如RNN、CNN和Transformer等有专门变体来捕获长距离依赖,但它们在处理超过10000步的非常长序列时仍然存在困难。最近一种基于状态空间模型(SSM)的方法展示了通过适当选择状态矩阵A,可以在数学和实证上处理长距离依赖。然而,这种方法在计算和内存需求上成本过高,使其不适用于一般序列建模解决方案。S4模型通过新的参数化方法对SSM进行了改进,使得它在保持理论
【AI学习】Mamba学习(十):HiPPO总结 针对序列数据的建模和学习,HiPPO框架是一种序列记忆的统一框架,通过投影到正交多项式进行序列学习,同时用时间度量函数表达对序列历史的学习权重,在给定时间度量下的正交多项式投影的推导,最终推导出线性常微分方程的闭式解,实现在线近似学习。
【AI学习】Mamba学习(八):HiPPO通用框架定义和方法 作者将投影作为学习记忆表征的一种方法来解决在线函数近似问题(第2.1节)。第2.2节描述了通用HiPPO框架以实现内存更新,包括引入的技术问题的精确定义,以及解决该问题的方法的概述。第2.3节实例化了框架,这个框架揭示了LMU并产生新内存更新的机制(例如HiPPO-LagT),展示了HiPPO框架的通用性。第2.4节讨论了如何将基于连续时间的主要结果转换为实际的离散版本。最后,在第2.5节中,作者展示了RNN中的门控是如何成为HiPPO存储器的一个实例。
【AI学习】Mamba学习(七):HiPPO通用框架介绍 框架HiPPO(高阶多项式投影算子),它产生了将任意函数投影到给定度量的正交多项式空间上的算子。这个通用框架允许我们分析几个度量家族,其中该算子作为闭式常微分方程或线性递归,允许在输入函数随时间变化时快速增量更新最优多项式近似值
【AI学习】Mamba学习(六):HiPPO论文中的离散化SSM的矩阵近似计算 既然ZOH方法有解析解,为什么还需要欧拉方法、双线性方法等近似方法?苏神也做了解释,主要是计算复杂度,公式9的这个形式,指数矩阵计算起来不够友好。“Mamba作者后面的作品包括 Mamba 都是用这个格式(公式9的格式),此时一般都要假设A为对角矩阵,因为对于矩阵A ,矩阵指数算起来并不友好”。
【AI学习】Anthropic公司CEO Dario Amodei最近发表的文章《Machines of Loving Grace:AI如何让世界变得更好》 Anthropic公司CEO Dario Amodei最近发表的文章。通过翻译工具,大概看了看,未来非常美好! 只是生物学和身体健康 、神经科学和心理健康这两部分的前景,就非常让人兴奋!
【AI学习】Mamba学习(五):《HiPPO: Recurrent Memory with Optimal Polynomial Projections》 HiPPO是一个通用框架,用于通过投影到多项式基上对连续信号和离散时间序列进行在线压缩。给定一个指定过去每个时间步长重要性的度量,HiPPO会产生一个自然在线函数近似问题的最优解
【AI学习】Mamba学习(二):线性注意力 Softmax 注意力的问题是,Softmax是非线性的函数,如果没有 Softmax,那么就是三个矩阵 (query・key)・value 连乘 ,而矩阵乘法满足结合率,可以调整为调整为 query・(key・value)。 (query・key)得到是n✖n的矩阵,(key・value)得到的是d✖d的矩阵。在d远小于n的情况下,复杂度就大致从O(n^2)降低到O(n)量级。
【AI学习】Lilian Weng:Extrinsic Hallucinations in LLMs(LLM 的外在幻觉) 这篇文章的核心内容和观点是讨论大型语言模型(LLM)中的外在幻觉问题。外在幻觉是指模型生成不真实、捏造、不一致或无意义的内容。同样重要的是,当模型不知道某个事实时,它应该这么说。文章主要探讨了外在幻觉的原因、检测方法和减少幻觉的策略。