- 博客(100)
- 收藏
- 关注
原创 【AI学习】Mamba学习(十四):S5模型的矩阵A对角化
S5模型之所以能够实现并行扫描,是因为之前有研究发现,HiPPO矩阵的对角近似可以实现相当的表现。于是,HiPPO的A矩阵可以以对角化矩阵的方式进行处理。
2024-11-01 23:13:08 1158
原创 【论文速读】MetaGPT的最新研究:《SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning》
这篇文章介绍了一种“AI自主设计AI”的方法。主要方法是通过蒙特卡洛树搜索(MCTS)和LLM Agents,LLM Agents将任务进行分解规划生成搜索空间,然后树搜索,然后反复迭代。
2024-10-26 23:07:31 1151
原创 【AI学习】Mamba学习(十三):简单了解S5模型,S5论文速读
使用结构化状态空间序列(S4)层的模型在长距离序列建模任务中取得了最先进的性能。S4层结合了线性状态空间模型(SSM)、HiPPO框架和深度学习来实现高性能。我们以S4层的设计为基础,引入了一个新的状态空间层,即S5层。S4层使用许多独立的单输入、单输出SSM,而S5层使用一个多输入、多输出SSM。我们在S5和S4之间建立了一个连接,并利用它来开发S5模型所使用的初始化和参数化。其结果是,状态空间层可以利用高效且广泛实施的并行扫描,使S5的计算效率与S4相匹配,同时在几个远程序列建模任务上实现了最先进的性能
2024-10-25 23:03:40 894
原创 【AI学习】Mamba学习(十二):深入理解S4模型
HiPPO A矩阵在线性代数意义上是高度非正规的,这阻碍了传统算法技术的应用。因此,尽管 LSSL 表明 SSM 具有很强的性能,但它们目前作为通用序列建模解决方案在计算上是不切实际的。S4将HiPPO 矩阵A分解为正规矩阵和低秩矩阵的和,使得A可以被稳定地对角化;利用Woodbury identity和Cauchy核的计算,将SSM的计算复杂度从O(N^2L)降低到O(N+L)
2024-10-24 22:52:06 911
原创 【AI学习】Mamba学习(十一):S4,《Efficiently Modeling Long Sequences with Structured State Spaces》
S4(Structured State Space sequence model)的序列模型,旨在有效处理长距离依赖(LRDs)。尽管现有的模型如RNN、CNN和Transformer等有专门变体来捕获长距离依赖,但它们在处理超过10000步的非常长序列时仍然存在困难。最近一种基于状态空间模型(SSM)的方法展示了通过适当选择状态矩阵A,可以在数学和实证上处理长距离依赖。然而,这种方法在计算和内存需求上成本过高,使其不适用于一般序列建模解决方案。S4模型通过新的参数化方法对SSM进行了改进,使得它在保持理论
2024-10-24 08:00:00 1184
原创 【AI学习】Mamba学习(十):HiPPO总结
针对序列数据的建模和学习,HiPPO框架是一种序列记忆的统一框架,通过投影到正交多项式进行序列学习,同时用时间度量函数表达对序列历史的学习权重,在给定时间度量下的正交多项式投影的推导,最终推导出线性常微分方程的闭式解,实现在线近似学习。
2024-10-21 22:35:45 727
原创 【AI学习】Mamba学习(九):HiPPO LegS版本
HiPPO-LegS具有良好的理论性质:对输入时间尺度不变,计算速度快,并且具有有界梯度和近似误差
2024-10-18 23:24:33 397
原创 【AI学习】Mamba学习(八):HiPPO通用框架定义和方法
作者将投影作为学习记忆表征的一种方法来解决在线函数近似问题(第2.1节)。第2.2节描述了通用HiPPO框架以实现内存更新,包括引入的技术问题的精确定义,以及解决该问题的方法的概述。第2.3节实例化了框架,这个框架揭示了LMU并产生新内存更新的机制(例如HiPPO-LagT),展示了HiPPO框架的通用性。第2.4节讨论了如何将基于连续时间的主要结果转换为实际的离散版本。最后,在第2.5节中,作者展示了RNN中的门控是如何成为HiPPO存储器的一个实例。
2024-10-18 23:23:17 1048
原创 【AI学习】Mamba学习(七):HiPPO通用框架介绍
框架HiPPO(高阶多项式投影算子),它产生了将任意函数投影到给定度量的正交多项式空间上的算子。这个通用框架允许我们分析几个度量家族,其中该算子作为闭式常微分方程或线性递归,允许在输入函数随时间变化时快速增量更新最优多项式近似值
2024-10-16 22:47:22 1221
原创 【AI学习】Mamba学习(六):HiPPO论文中的离散化SSM的矩阵近似计算
既然ZOH方法有解析解,为什么还需要欧拉方法、双线性方法等近似方法?苏神也做了解释,主要是计算复杂度,公式9的这个形式,指数矩阵计算起来不够友好。“Mamba作者后面的作品包括 Mamba 都是用这个格式(公式9的格式),此时一般都要假设A为对角矩阵,因为对于矩阵A ,矩阵指数算起来并不友好”。
2024-10-15 22:47:40 462
原创 【AI学习】Anthropic公司CEO Dario Amodei最近发表的文章《Machines of Loving Grace:AI如何让世界变得更好》
Anthropic公司CEO Dario Amodei最近发表的文章。通过翻译工具,大概看了看,未来非常美好! 只是生物学和身体健康 、神经科学和心理健康这两部分的前景,就非常让人兴奋!
2024-10-15 22:46:15 856
原创 【AI学习】Mamba学习(五):《HiPPO: Recurrent Memory with Optimal Polynomial Projections》
HiPPO是一个通用框架,用于通过投影到多项式基上对连续信号和离散时间序列进行在线压缩。给定一个指定过去每个时间步长重要性的度量,HiPPO会产生一个自然在线函数近似问题的最优解
2024-10-08 23:24:38 328
原创 【AI学习】Mamba学习(四):从SSM开始
SSM在推理时,可以类似RNN的循环结构,获得比较快的推理速度;而在训练的时候,可以通过采用卷积核实现并行化,获得较快的训练速读。
2024-10-08 23:20:10 1099
原创 【AI学习】Mamba学习(二):线性注意力
Softmax 注意力的问题是,Softmax是非线性的函数,如果没有 Softmax,那么就是三个矩阵 (query・key)・value 连乘 ,而矩阵乘法满足结合率,可以调整为调整为 query・(key・value)。 (query・key)得到是n✖n的矩阵,(key・value)得到的是d✖d的矩阵。在d远小于n的情况下,复杂度就大致从O(n^2)降低到O(n)量级。
2024-10-04 22:57:15 974
原创 【AI学习】Lilian Weng:Extrinsic Hallucinations in LLMs(LLM 的外在幻觉)
这篇文章的核心内容和观点是讨论大型语言模型(LLM)中的外在幻觉问题。外在幻觉是指模型生成不真实、捏造、不一致或无意义的内容。同样重要的是,当模型不知道某个事实时,它应该这么说。文章主要探讨了外在幻觉的原因、检测方法和减少幻觉的策略。
2024-09-26 22:25:41 730
原创 【AI学习】Lilian Weng:What are Diffusion Models?
Lilian Weng博客《What are Diffusion Models?》
2024-09-25 22:57:58 906
原创 【AI学习】AI绘画发展简史
类似Stable Diffusion这种AI生成模型的一个核心思路, 或者说很多深度学习AI模型的核心思路, 就是把人类创作的内容, 表示为某个高维或者低维数学空间里的一个向量(更简单的理解, 一串数字)。如果这个"内容->向量"的转化设计足够合理, 那么人类所有的创作内容都可以表示为某个数学空间里的部分向量而已。而存在于这个无限的数学空间里的其他向量, 正是那些理论上人类可能创造, 但尚未被创造出来的内容。通过逆向的"向量->内容"的转换, 这些还没被创造的内容就被AI挖掘出来了。
2024-09-18 23:06:05 823 1
原创 【Transformer深入学习】之一:Sinusoidal位置编码的精妙
Sinusoidal位置编码是一个如何破坏轮换对称性,同时给长距离的 token 关联做自动衰减的有效方法
2024-09-18 23:05:07 1226
原创 【AI学习】陶哲轩在 2024 年第 65 届国际数学奥林匹克(IMO)的演讲:AI 与数学
陶哲轩介绍到被数学家接受并开始普及的方法:形式化证明辅助工具
2024-09-15 23:21:51 1637 1
原创 【AI学习】了解OpenAI o1背后的self-play RL:开启新的智能道路
大模型的预训练,虽然还在继续,但是似乎有点快到智能顶点了,self-play RL,是开启了新的智能道路
2024-09-15 21:19:50 1716
原创 【AI学习】聊两句深度学习的目标函数
导数的计算,这是⼏乎所有深度学习优化算法的关键步骤。在深度学习中,我们通常选择对于模型参数可微的损失函数。简⽽⾔之,对于每个参数,如果我们把这个参数增加或减少⼀个⽆穷⼩的量,我们可以知道损失会以多快的速度增加或减少。
2024-09-05 23:17:19 490
原创 【论文阅读】理解DPO,《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》
大语言模型自身就可以作为奖励模型,进行直接偏好优化。DPO,直接优化语言模型以符合人类偏好,而无需明确的奖励建模或强化学习。**再进一步说,语言模型是通过学习人类语言的概率分布,然后进行输出,DPO的方法,就是通过标签数据,让语言模型学习符合人类偏好的概率分布。**
2024-09-05 23:01:24 917
原创 【论文速读】《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》
这是关于大模型的DPO方法的论文,尝试使用腾讯元宝进行快速阅读!
2024-09-03 23:00:01 905 1
原创 【AI学习】在魔塔社区玩Ollama:部署GLM4和CodeGeeX4
尝试了一下CodeGeeX4-ALL-9B 的Ollama部署。GPU要明显快很多,CPU的速度,也还凑合吧
2024-08-27 21:36:13 2363
原创 【AI学习】LLaMA模型的微调成本有几何?
以LLaMa 7B模型的训练来说,总训练时长=2710,按照前面“在8个80GB A100 上训练了3个小时,不到100美元”的成本折算,成本应该小于11300美金13B模型,总训练时长=5100,成本应该小于21250美金70B模型,总训练时长=21340,成本应该小于88920美金
2024-08-20 21:52:32 708
原创 【AI学习】[2024北京智源大会]具身智能:具身智能关键技术研究:操纵、决策、导航
具身智能的关键点:过去是通过仿真实现基本的操作和导航技能,包括自监督的学习;现在是通过大模型,解决仿真到真实世界的gap,利用大模型的知识;那接下来,还是要利用真实世界的数据。
2024-08-07 23:05:49 1260
原创 【论文速读】《LLM4CP: Adapting Large Language Models for Channel Prediction》
前言:之前就想,大语言模型是否可以通过微调用于通信系统的无线空口应用,这篇文章给出了答案。通过讲信道状态信息进行嵌入和注意力操作,变成大语言模型可以适配的数据,然后LLM只需要微调就可以活得较好的信道预测性能。
2024-08-06 22:59:47 1389
原创 【论文阅读】DL-Based End-to-End Wireless Communication Systems With Conditional GANs as Unknown Channels
提出使用条件生成对抗网络(GAN)来表示信道效应,并作为发射机DNN和接收机DNN之间的桥梁,以便接收机DNN可以将梯度反向传播到发射机DNN
2024-08-06 22:56:53 1219
原创 【AI学习】[2024北京智源大会]具身智能:面向通用机器人的具身多模态大模型系统
面向通用机器人的具身多模态大模型系统王 鹤 | 北京大学助理教授,智源学者边听边做一些记录。
2024-08-02 22:59:41 1633 2
原创 【AI学习】关于Scaling Law的相关学习
在人工智能领域,特别是大语言模型(LLM)的研究中,理解和应用扩展法则(Scaling Law)是至关重要的。这些法则帮助研究者和工程师预测和优化模型性能,从而在给定的计算资源下实现最佳效果。目前,两种主要的扩展法则——KM扩展法则和Chinchilla扩展法则——在学术界和工业界得到了广泛应用。
2024-07-20 11:47:25 556
原创 【论文速读】《Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless System》
如何将LMM应用于通信领域,这是我作为通信专业人士,必须关心的一个话题。这篇文章,总的来说,关于已有探索的局限性分析的不错,关于后面的开放性问题也总结的不错。但是文章提出的框架,还是有些过于概念化。
2024-07-10 22:40:14 936
原创 【论文速读】《面向深度学习的联合消息传递与自编码器》,无线AI的挑战和解决思路
文章对我比较有启发的地方,是提到自编码架构的全局收发机面临的主要问题.
2024-07-10 22:38:53 953
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人