
AI论文阅读
文章平均质量分 92
bylander
这个作者很懒,什么都没留下…
展开
-
【AI学习】OpenAI:《A practical guide to building agents》(中文介绍与原文)
OpenAI最新发布《A practical guide to building agents》,比较有指导意义,做一个介绍。原创 2025-04-18 22:46:08 · 1092 阅读 · 0 评论 -
【AI学习】NVIDIA Sionna平台介绍:《Sionna: An Open-Source Library for Next-Generation Physical Layer Research》
Sionna是NVIDIA推出的面向6G无线通信物理层研究的开源库,为6G的技术研究(尤其是AI方面)提供了全新工具,非常有价值。下面对Sionna平台进行介绍。原创 2025-04-18 22:37:57 · 1014 阅读 · 0 评论 -
【论文阅读】RadioDiff: Effective Generative Diffusion Model for Sampling-Free RadioMap Construction
RadioDiff模型对无线通信领域研究具有显著的促进作用。它为6G网络等提供了精准的无线环境信息,助力网络优化与部署。在智能交通、远程医疗等领域,能保障应用的稳定运行。其高效、精准的无线地图构建能力,为无线通信新技术的研发提供了有力支持,推动了无线通信技术的创新与发展,加速了6G网络等应用场景的实现进程。原创 2025-03-29 23:00:15 · 1475 阅读 · 0 评论 -
【AI学习】从混元T1看Mamba与Transformer的融合
SSM-Transformer混合架构。具体做法是将自注意力和MLP层添加到Mamba架构中。56层的Mamba-2-Hybrid中包含4个(7.1%)自注意力层,24 个(42.9%)Mamba-2层和28个(50%)MLP 层,其中Mamba-2层使用与Mamba-2模型相同的参数。消融实验的结果还显示,混合模型中不添加旋转位置编码(RoPE)能达到更好的下游任务性能,而且Mamba层、自注意力层、MLP层的顺序也会影响模型能力。具体来说,Mamba层必须出现在架构的开头,以确保模型自然地学习到位置信息原创 2025-03-22 18:21:09 · 1094 阅读 · 0 评论 -
【AI工具】夸克AI试用:分析DeepSeek-V3技术报告
DeepSeek-V3是一个拥有6710亿参数的专家混合(MoE)语言模型,每次生成一个标记时激活370亿参数。为了实现高效推理和经济型训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这两种架构在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3率先采用无辅助损失策略进行负载均衡,并设置了多标记预测训练目标以实现更强大的性能。原创 2025-01-19 08:00:00 · 4413 阅读 · 0 评论 -
【AI学习】Transformer深入学习(二):从MHA、MQA、GQA到MLA
从MHA、MQA、GQA到MLA的简单分析和对比原创 2025-01-04 23:30:14 · 1857 阅读 · 0 评论 -
【AI学习】DeepSeek-V3 技术报告学习:总体架构
翻了一下DeepSeek-V3 技术报告学习,太长,只是大概翻了一下,其中Multi-Token Prediction的技术就很亮眼。原创 2024-12-28 22:17:05 · 8752 阅读 · 0 评论 -
【AI学习】Huggingface复刻Test-time Compute Scaling技术
OpenAI ChatGPT o1 背后的关键技术Test-time Compute Scaling,Huggingface实现并开源了!Hugging Face 团队发布了一篇关于“开源模型中的推理阶段计算扩展”(Test-time Compute Scaling) 的研究文章。Hugging Face 团队通过复现 DeepMind 等研究成果,通过测试时计算扩展(test-time compute scaling)来提升小模型的性能,使其在某些情况下超越更大规模的模型。原创 2024-12-21 22:17:38 · 1702 阅读 · 0 评论 -
【AI学习】Ilya在NeurIPS 2024的重磅发言:预训练即将终结!
最近,Ilya在NeurIPS 2024的发言引起广泛关注,很多人说这可能是今年最重要的发言。各个自媒体都有相关文章,这里记录作为备忘。原创 2024-12-18 06:00:00 · 1064 阅读 · 0 评论 -
【AI学习】Mamba学习(二十一):Mamba发展回顾
Mamba的发展历程经历HiPPO->S4->S6演化而来。本篇做一个简单的回顾,再结合一个RNN的优化案例,更清晰地看明Mamba的思路。原创 2024-12-08 22:30:06 · 930 阅读 · 0 评论 -
【AI学习】苹果技术报告《Apple Intelligence Foundation Language Models》
这篇文章介绍了苹果公司开发的基础语言模型(Apple Foundation Language Models,简称AFM),这些模型旨在为苹果智能(Apple Intelligence)功能提供支持。文章详细描述了这些模型的架构、训练过程、优化方法以及评估结果,并强调了负责任的人工智能(Responsible AI)原则在模型开发过程中的应用。原创 2024-12-08 22:29:29 · 1473 阅读 · 0 评论 -
【AI学习】Mamba学习(二十):Mamba是一种线性注意力
理解Mamba的一个维度是从RNN出发,另一个维度是从线性注意力的角度。原创 2024-12-07 23:24:10 · 964 阅读 · 0 评论 -
【AI学习】Mamba学习(十九):关于S4-FouT
文章推导出了HiPPO框架的一个更一般和直观的公式,它为S4提供了一个简单的数学解释,即通过指数扭曲的Legendre多项式(exponentially-warped Legendre polynomials)分解来捕获长期依赖关系。我们的推广引入了一个理论上丰富的SSM类别,也让我们推导出了更直观的S4变体,用于其他基底,如傅里叶基底,并解释了训练S4的其他方面,例如如何初始化重要的时间尺度参数。原创 2024-12-07 23:21:53 · 888 阅读 · 0 评论 -
【AI学习】Mamba学习(十八):S6的硬件感知设计
对于S6模型的硬件感知设计,尤其是所谓的并行扫描,看论文没有看清楚,查了相关博客,再进行一下梳理。原创 2024-11-26 22:45:32 · 1637 阅读 · 0 评论 -
【AI学习】Mamba学习(十七):《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》
本文对《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》这篇论文进行了完整学习原创 2024-11-26 21:58:19 · 1173 阅读 · 0 评论 -
【AI学习】Mamba学习(十五):关于S4模型计算优化的再学习
前面理解了S4模型,但是对于具体的优化算法,还是没有完全理解透彻。进行补充学习原创 2024-11-10 23:13:04 · 851 阅读 · 0 评论 -
【AI学习】Mamba学习(十四):S5模型的矩阵A对角化
S5模型之所以能够实现并行扫描,是因为之前有研究发现,HiPPO矩阵的对角近似可以实现相当的表现。于是,HiPPO的A矩阵可以以对角化矩阵的方式进行处理。原创 2024-11-01 23:13:08 · 1428 阅读 · 0 评论 -
【论文速读】MetaGPT的最新研究:《SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning》
这篇文章介绍了一种“AI自主设计AI”的方法。主要方法是通过蒙特卡洛树搜索(MCTS)和LLM Agents,LLM Agents将任务进行分解规划生成搜索空间,然后树搜索,然后反复迭代。原创 2024-10-26 23:07:31 · 1512 阅读 · 0 评论 -
【AI学习】Mamba学习(十三):简单了解S5模型,S5论文速读
使用结构化状态空间序列(S4)层的模型在长距离序列建模任务中取得了最先进的性能。S4层结合了线性状态空间模型(SSM)、HiPPO框架和深度学习来实现高性能。我们以S4层的设计为基础,引入了一个新的状态空间层,即S5层。S4层使用许多独立的单输入、单输出SSM,而S5层使用一个多输入、多输出SSM。我们在S5和S4之间建立了一个连接,并利用它来开发S5模型所使用的初始化和参数化。其结果是,状态空间层可以利用高效且广泛实施的并行扫描,使S5的计算效率与S4相匹配,同时在几个远程序列建模任务上实现了最先进的性能原创 2024-10-25 23:03:40 · 1158 阅读 · 0 评论 -
【AI学习】Mamba学习(十二):深入理解S4模型
HiPPO A矩阵在线性代数意义上是高度非正规的,这阻碍了传统算法技术的应用。因此,尽管 LSSL 表明 SSM 具有很强的性能,但它们目前作为通用序列建模解决方案在计算上是不切实际的。S4将HiPPO 矩阵A分解为正规矩阵和低秩矩阵的和,使得A可以被稳定地对角化;利用Woodbury identity和Cauchy核的计算,将SSM的计算复杂度从O(N^2L)降低到O(N+L)原创 2024-10-24 22:52:06 · 2062 阅读 · 0 评论 -
【AI学习】Mamba学习(十一):S4,《Efficiently Modeling Long Sequences with Structured State Spaces》
S4(Structured State Space sequence model)的序列模型,旨在有效处理长距离依赖(LRDs)。尽管现有的模型如RNN、CNN和Transformer等有专门变体来捕获长距离依赖,但它们在处理超过10000步的非常长序列时仍然存在困难。最近一种基于状态空间模型(SSM)的方法展示了通过适当选择状态矩阵A,可以在数学和实证上处理长距离依赖。然而,这种方法在计算和内存需求上成本过高,使其不适用于一般序列建模解决方案。S4模型通过新的参数化方法对SSM进行了改进,使得它在保持理论原创 2024-10-24 08:00:00 · 1800 阅读 · 0 评论 -
【AI学习】Mamba学习(十):HiPPO总结
针对序列数据的建模和学习,HiPPO框架是一种序列记忆的统一框架,通过投影到正交多项式进行序列学习,同时用时间度量函数表达对序列历史的学习权重,在给定时间度量下的正交多项式投影的推导,最终推导出线性常微分方程的闭式解,实现在线近似学习。原创 2024-10-21 22:35:45 · 2060 阅读 · 0 评论 -
【AI学习】Mamba学习(九):HiPPO LegS版本
HiPPO-LegS具有良好的理论性质:对输入时间尺度不变,计算速度快,并且具有有界梯度和近似误差原创 2024-10-18 23:24:33 · 557 阅读 · 0 评论 -
【AI学习】Mamba学习(八):HiPPO通用框架定义和方法
作者将投影作为学习记忆表征的一种方法来解决在线函数近似问题(第2.1节)。第2.2节描述了通用HiPPO框架以实现内存更新,包括引入的技术问题的精确定义,以及解决该问题的方法的概述。第2.3节实例化了框架,这个框架揭示了LMU并产生新内存更新的机制(例如HiPPO-LagT),展示了HiPPO框架的通用性。第2.4节讨论了如何将基于连续时间的主要结果转换为实际的离散版本。最后,在第2.5节中,作者展示了RNN中的门控是如何成为HiPPO存储器的一个实例。原创 2024-10-18 23:23:17 · 1264 阅读 · 0 评论 -
【AI学习】Mamba学习(七):HiPPO通用框架介绍
框架HiPPO(高阶多项式投影算子),它产生了将任意函数投影到给定度量的正交多项式空间上的算子。这个通用框架允许我们分析几个度量家族,其中该算子作为闭式常微分方程或线性递归,允许在输入函数随时间变化时快速增量更新最优多项式近似值原创 2024-10-16 22:47:22 · 2600 阅读 · 1 评论 -
【AI学习】Mamba学习(六):HiPPO论文中的离散化SSM的矩阵近似计算
既然ZOH方法有解析解,为什么还需要欧拉方法、双线性方法等近似方法?苏神也做了解释,主要是计算复杂度,公式9的这个形式,指数矩阵计算起来不够友好。“Mamba作者后面的作品包括 Mamba 都是用这个格式(公式9的格式),此时一般都要假设A为对角矩阵,因为对于矩阵A ,矩阵指数算起来并不友好”。原创 2024-10-15 22:47:40 · 715 阅读 · 0 评论 -
【AI学习】Mamba学习(五):《HiPPO: Recurrent Memory with Optimal Polynomial Projections》
HiPPO是一个通用框架,用于通过投影到多项式基上对连续信号和离散时间序列进行在线压缩。给定一个指定过去每个时间步长重要性的度量,HiPPO会产生一个自然在线函数近似问题的最优解原创 2024-10-08 23:24:38 · 746 阅读 · 0 评论 -
【AI学习】Mamba学习(一):总体架构
先直接来看一下论文的总体架构。Mamba架构是结合了H3和门控MLP两个架构形成的组合架构原创 2024-10-04 21:42:09 · 2381 阅读 · 0 评论 -
【论文阅读】理解DPO,《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》
大语言模型自身就可以作为奖励模型,进行直接偏好优化。DPO,直接优化语言模型以符合人类偏好,而无需明确的奖励建模或强化学习。**再进一步说,语言模型是通过学习人类语言的概率分布,然后进行输出,DPO的方法,就是通过标签数据,让语言模型学习符合人类偏好的概率分布。**原创 2024-09-05 23:01:24 · 1754 阅读 · 0 评论 -
【论文速读】《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》
这是关于大模型的DPO方法的论文,尝试使用腾讯元宝进行快速阅读!原创 2024-09-03 23:00:01 · 1204 阅读 · 1 评论 -
【论文速读】《LLM4CP: Adapting Large Language Models for Channel Prediction》
前言:之前就想,大语言模型是否可以通过微调用于通信系统的无线空口应用,这篇文章给出了答案。通过讲信道状态信息进行嵌入和注意力操作,变成大语言模型可以适配的数据,然后LLM只需要微调就可以活得较好的信道预测性能。原创 2024-08-06 22:59:47 · 2167 阅读 · 0 评论 -
【论文阅读】DL-Based End-to-End Wireless Communication Systems With Conditional GANs as Unknown Channels
提出使用条件生成对抗网络(GAN)来表示信道效应,并作为发射机DNN和接收机DNN之间的桥梁,以便接收机DNN可以将梯度反向传播到发射机DNN原创 2024-08-06 22:56:53 · 1422 阅读 · 0 评论 -
【论文速读】《Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless System》
如何将LMM应用于通信领域,这是我作为通信专业人士,必须关心的一个话题。这篇文章,总的来说,关于已有探索的局限性分析的不错,关于后面的开放性问题也总结的不错。但是文章提出的框架,还是有些过于概念化。原创 2024-07-10 22:40:14 · 1170 阅读 · 0 评论 -
【论文速读】《面向深度学习的联合消息传递与自编码器》,无线AI的挑战和解决思路
文章对我比较有启发的地方,是提到自编码架构的全局收发机面临的主要问题.原创 2024-07-10 22:38:53 · 1062 阅读 · 0 评论 -
【论文速读】解码器-解码器架构 YOCO,《You Only Cache Once: Decoder-Decoder Architectures for Language Models》
文章为大型语言模型引入了一个解码器-解码器架构 YOCO,它只缓存一次键值对。它由两个组件组成,即堆叠在自解码器上的交叉解码器。自解码器有效地对全局键值 (KV) 缓存进行编码,交叉解码器通过交叉注意力重用这些缓存。整个模型的行为类似于仅解码器的 Transformer,尽管 YOCO 只缓存一次。该设计大大**降低了 GPU 内存需求,同时保留了全局注意力能力**。此外,计算流程可以在不改变最终输出的情况下提前预填充,从而显著加快预填充阶段。实验结果表明,YOCO在模型规模和训练令牌数量等各种设置下均比T原创 2024-07-04 10:52:05 · 1794 阅读 · 0 评论 -
【论文阅读】MOA,《Mixture-of-Agents Enhances Large Language Model Capabilities》
文章提出了一种新的方法,称为 Mixture-of-Agents(MoA),利用多个大型语言模型(LLMs)的集体优势来提高自然语言理解和生成任务的性能。MoA 方法通过构建分层的 MoA 架构,每层包含多个 LLM Agents,每个Agent使用前一层所有Agents的输出作为辅助信息来生成其响应。MoA 模型在 AlpacaEval 2.0、MT-Bench 和 FLASK 等基准测试中取得了最先进的性能,超越了 GPT-4 Omni。原创 2024-06-19 22:22:07 · 2502 阅读 · 0 评论 -
【AI学习】LLaMA 系列模型的进化(一)
一直对LLaMA 名下的各个模型关系搞不清楚,什么羊驼、考拉的,不知所以。幸好看到两篇综述,有个大致了解,以及SEBASTIAN RASCHKA中对LLaMa 3的介绍。做一个记录原创 2024-06-15 23:01:41 · 1388 阅读 · 0 评论 -
【论文速读】CoPE,基于上下文的位置编码,《Contextual Position Encoding: Learning to Count What’s Important》
Transformer 架构的位置编码,是解决注意力机制缺乏序列信息的问题,但是以往的位置编码是基于Token级别的,所以LLM难以建立句子级别的更高层次的序列信息,也就很难关注到句子的概念。CopE是基于上下文的位置编码,解决了这个问题原创 2024-06-10 22:51:41 · 2395 阅读 · 1 评论 -
【论文速读】MOD,《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》
Transformer模型在前向传播中对每个token均匀分配计算资源,这在处理不同的语言建模问题时并不高效,因为并非所有token和序列都需要相同的计算量来进行准确预测。MoD模型旨在解决这一问题,通过动态分配计算资源,以更高效地使用计算预算。原创 2024-06-07 23:36:31 · 1675 阅读 · 0 评论 -
【论文阅读】SELF-RAG,让模型决策和反思检索
Self-Rag框架训练流程涉及两个模型,一个是评价模型(Critic Model),一个是生成模型(Generator Model)。大概方法是,借助GPT-4形成数据集,训练评价模型;然后通过评价模型,生成新的数据集,再来训练生成模型。原创 2024-06-06 21:16:05 · 1477 阅读 · 1 评论