AI论文阅读
文章平均质量分 91
bylander
这个作者很懒,什么都没留下…
展开
-
【AI学习】Mamba学习(十五):关于S4模型计算优化的再学习
前面理解了S4模型,但是对于具体的优化算法,还是没有完全理解透彻。进行补充学习原创 2024-11-10 23:13:04 · 451 阅读 · 0 评论 -
【AI学习】Mamba学习(十四):S5模型的矩阵A对角化
S5模型之所以能够实现并行扫描,是因为之前有研究发现,HiPPO矩阵的对角近似可以实现相当的表现。于是,HiPPO的A矩阵可以以对角化矩阵的方式进行处理。原创 2024-11-01 23:13:08 · 1169 阅读 · 0 评论 -
【论文速读】MetaGPT的最新研究:《SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning》
这篇文章介绍了一种“AI自主设计AI”的方法。主要方法是通过蒙特卡洛树搜索(MCTS)和LLM Agents,LLM Agents将任务进行分解规划生成搜索空间,然后树搜索,然后反复迭代。原创 2024-10-26 23:07:31 · 1158 阅读 · 0 评论 -
【AI学习】Mamba学习(十三):简单了解S5模型,S5论文速读
使用结构化状态空间序列(S4)层的模型在长距离序列建模任务中取得了最先进的性能。S4层结合了线性状态空间模型(SSM)、HiPPO框架和深度学习来实现高性能。我们以S4层的设计为基础,引入了一个新的状态空间层,即S5层。S4层使用许多独立的单输入、单输出SSM,而S5层使用一个多输入、多输出SSM。我们在S5和S4之间建立了一个连接,并利用它来开发S5模型所使用的初始化和参数化。其结果是,状态空间层可以利用高效且广泛实施的并行扫描,使S5的计算效率与S4相匹配,同时在几个远程序列建模任务上实现了最先进的性能原创 2024-10-25 23:03:40 · 902 阅读 · 0 评论 -
【AI学习】Mamba学习(十二):深入理解S4模型
HiPPO A矩阵在线性代数意义上是高度非正规的,这阻碍了传统算法技术的应用。因此,尽管 LSSL 表明 SSM 具有很强的性能,但它们目前作为通用序列建模解决方案在计算上是不切实际的。S4将HiPPO 矩阵A分解为正规矩阵和低秩矩阵的和,使得A可以被稳定地对角化;利用Woodbury identity和Cauchy核的计算,将SSM的计算复杂度从O(N^2L)降低到O(N+L)原创 2024-10-24 22:52:06 · 931 阅读 · 0 评论 -
【AI学习】Mamba学习(十一):S4,《Efficiently Modeling Long Sequences with Structured State Spaces》
S4(Structured State Space sequence model)的序列模型,旨在有效处理长距离依赖(LRDs)。尽管现有的模型如RNN、CNN和Transformer等有专门变体来捕获长距离依赖,但它们在处理超过10000步的非常长序列时仍然存在困难。最近一种基于状态空间模型(SSM)的方法展示了通过适当选择状态矩阵A,可以在数学和实证上处理长距离依赖。然而,这种方法在计算和内存需求上成本过高,使其不适用于一般序列建模解决方案。S4模型通过新的参数化方法对SSM进行了改进,使得它在保持理论原创 2024-10-24 08:00:00 · 1189 阅读 · 0 评论 -
【AI学习】Mamba学习(十):HiPPO总结
针对序列数据的建模和学习,HiPPO框架是一种序列记忆的统一框架,通过投影到正交多项式进行序列学习,同时用时间度量函数表达对序列历史的学习权重,在给定时间度量下的正交多项式投影的推导,最终推导出线性常微分方程的闭式解,实现在线近似学习。原创 2024-10-21 22:35:45 · 744 阅读 · 0 评论 -
【AI学习】Mamba学习(九):HiPPO LegS版本
HiPPO-LegS具有良好的理论性质:对输入时间尺度不变,计算速度快,并且具有有界梯度和近似误差原创 2024-10-18 23:24:33 · 399 阅读 · 0 评论 -
【AI学习】Mamba学习(八):HiPPO通用框架定义和方法
作者将投影作为学习记忆表征的一种方法来解决在线函数近似问题(第2.1节)。第2.2节描述了通用HiPPO框架以实现内存更新,包括引入的技术问题的精确定义,以及解决该问题的方法的概述。第2.3节实例化了框架,这个框架揭示了LMU并产生新内存更新的机制(例如HiPPO-LagT),展示了HiPPO框架的通用性。第2.4节讨论了如何将基于连续时间的主要结果转换为实际的离散版本。最后,在第2.5节中,作者展示了RNN中的门控是如何成为HiPPO存储器的一个实例。原创 2024-10-18 23:23:17 · 1052 阅读 · 0 评论 -
【AI学习】Mamba学习(七):HiPPO通用框架介绍
框架HiPPO(高阶多项式投影算子),它产生了将任意函数投影到给定度量的正交多项式空间上的算子。这个通用框架允许我们分析几个度量家族,其中该算子作为闭式常微分方程或线性递归,允许在输入函数随时间变化时快速增量更新最优多项式近似值原创 2024-10-16 22:47:22 · 1239 阅读 · 0 评论 -
【AI学习】Mamba学习(六):HiPPO论文中的离散化SSM的矩阵近似计算
既然ZOH方法有解析解,为什么还需要欧拉方法、双线性方法等近似方法?苏神也做了解释,主要是计算复杂度,公式9的这个形式,指数矩阵计算起来不够友好。“Mamba作者后面的作品包括 Mamba 都是用这个格式(公式9的格式),此时一般都要假设A为对角矩阵,因为对于矩阵A ,矩阵指数算起来并不友好”。原创 2024-10-15 22:47:40 · 469 阅读 · 0 评论 -
【AI学习】Mamba学习(五):《HiPPO: Recurrent Memory with Optimal Polynomial Projections》
HiPPO是一个通用框架,用于通过投影到多项式基上对连续信号和离散时间序列进行在线压缩。给定一个指定过去每个时间步长重要性的度量,HiPPO会产生一个自然在线函数近似问题的最优解原创 2024-10-08 23:24:38 · 338 阅读 · 0 评论 -
【AI学习】Mamba学习(一):总体架构
先直接来看一下论文的总体架构。Mamba架构是结合了H3和门控MLP两个架构形成的组合架构原创 2024-10-04 21:42:09 · 1226 阅读 · 0 评论 -
【论文阅读】理解DPO,《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》
大语言模型自身就可以作为奖励模型,进行直接偏好优化。DPO,直接优化语言模型以符合人类偏好,而无需明确的奖励建模或强化学习。**再进一步说,语言模型是通过学习人类语言的概率分布,然后进行输出,DPO的方法,就是通过标签数据,让语言模型学习符合人类偏好的概率分布。**原创 2024-09-05 23:01:24 · 933 阅读 · 0 评论 -
【论文速读】《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》
这是关于大模型的DPO方法的论文,尝试使用腾讯元宝进行快速阅读!原创 2024-09-03 23:00:01 · 911 阅读 · 1 评论 -
【论文速读】《LLM4CP: Adapting Large Language Models for Channel Prediction》
前言:之前就想,大语言模型是否可以通过微调用于通信系统的无线空口应用,这篇文章给出了答案。通过讲信道状态信息进行嵌入和注意力操作,变成大语言模型可以适配的数据,然后LLM只需要微调就可以活得较好的信道预测性能。原创 2024-08-06 22:59:47 · 1405 阅读 · 0 评论 -
【论文阅读】DL-Based End-to-End Wireless Communication Systems With Conditional GANs as Unknown Channels
提出使用条件生成对抗网络(GAN)来表示信道效应,并作为发射机DNN和接收机DNN之间的桥梁,以便接收机DNN可以将梯度反向传播到发射机DNN原创 2024-08-06 22:56:53 · 1221 阅读 · 0 评论 -
【论文速读】《Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless System》
如何将LMM应用于通信领域,这是我作为通信专业人士,必须关心的一个话题。这篇文章,总的来说,关于已有探索的局限性分析的不错,关于后面的开放性问题也总结的不错。但是文章提出的框架,还是有些过于概念化。原创 2024-07-10 22:40:14 · 941 阅读 · 0 评论 -
【论文速读】《面向深度学习的联合消息传递与自编码器》,无线AI的挑战和解决思路
文章对我比较有启发的地方,是提到自编码架构的全局收发机面临的主要问题.原创 2024-07-10 22:38:53 · 955 阅读 · 0 评论 -
【论文速读】解码器-解码器架构 YOCO,《You Only Cache Once: Decoder-Decoder Architectures for Language Models》
文章为大型语言模型引入了一个解码器-解码器架构 YOCO,它只缓存一次键值对。它由两个组件组成,即堆叠在自解码器上的交叉解码器。自解码器有效地对全局键值 (KV) 缓存进行编码,交叉解码器通过交叉注意力重用这些缓存。整个模型的行为类似于仅解码器的 Transformer,尽管 YOCO 只缓存一次。该设计大大**降低了 GPU 内存需求,同时保留了全局注意力能力**。此外,计算流程可以在不改变最终输出的情况下提前预填充,从而显著加快预填充阶段。实验结果表明,YOCO在模型规模和训练令牌数量等各种设置下均比T原创 2024-07-04 10:52:05 · 1487 阅读 · 0 评论 -
【论文阅读】MOA,《Mixture-of-Agents Enhances Large Language Model Capabilities》
文章提出了一种新的方法,称为 Mixture-of-Agents(MoA),利用多个大型语言模型(LLMs)的集体优势来提高自然语言理解和生成任务的性能。MoA 方法通过构建分层的 MoA 架构,每层包含多个 LLM Agents,每个Agent使用前一层所有Agents的输出作为辅助信息来生成其响应。MoA 模型在 AlpacaEval 2.0、MT-Bench 和 FLASK 等基准测试中取得了最先进的性能,超越了 GPT-4 Omni。原创 2024-06-19 22:22:07 · 1875 阅读 · 0 评论 -
【AI学习】LLaMA 系列模型的进化(一)
一直对LLaMA 名下的各个模型关系搞不清楚,什么羊驼、考拉的,不知所以。幸好看到两篇综述,有个大致了解,以及SEBASTIAN RASCHKA中对LLaMa 3的介绍。做一个记录原创 2024-06-15 23:01:41 · 1240 阅读 · 0 评论 -
【论文速读】CoPE,基于上下文的位置编码,《Contextual Position Encoding: Learning to Count What’s Important》
Transformer 架构的位置编码,是解决注意力机制缺乏序列信息的问题,但是以往的位置编码是基于Token级别的,所以LLM难以建立句子级别的更高层次的序列信息,也就很难关注到句子的概念。CopE是基于上下文的位置编码,解决了这个问题原创 2024-06-10 22:51:41 · 1915 阅读 · 1 评论 -
【论文速读】MOD,《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》
Transformer模型在前向传播中对每个token均匀分配计算资源,这在处理不同的语言建模问题时并不高效,因为并非所有token和序列都需要相同的计算量来进行准确预测。MoD模型旨在解决这一问题,通过动态分配计算资源,以更高效地使用计算预算。原创 2024-06-07 23:36:31 · 1222 阅读 · 0 评论 -
【论文阅读】SELF-RAG,让模型决策和反思检索
Self-Rag框架训练流程涉及两个模型,一个是评价模型(Critic Model),一个是生成模型(Generator Model)。大概方法是,借助GPT-4形成数据集,训练评价模型;然后通过评价模型,生成新的数据集,再来训练生成模型。原创 2024-06-06 21:16:05 · 1293 阅读 · 1 评论 -
【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》
这篇文章,描述的是语言模型的文本生成的核采样的方法,就是现在熟知的top-p大概看看,还有几个地方比较有趣,值得记录一下。原创 2024-06-06 20:58:55 · 671 阅读 · 0 评论 -
【论文速读】逐层扩展,《OpenELM: An Efficient Language Model Family with Open Training and Inference Framework》
这篇文章的标题是《OpenELM: An Efficient Language Model Family with Open Training and Inference Framework》,由 Sachin Mehta 等人撰写,来自苹果公司,旨在提供用于在移动设备上部署的小型 LLM。文章的亮点是逐层扩展(Layer-wise scaling)技术,它允许跨层更有效地分配参数。原创 2024-05-30 23:01:21 · 1000 阅读 · 0 评论 -
【论文速读】Self-Rag框架,《Self-Rag: Self-reflective Retrieval augmented Generation》
Self-Rag框架训练一个任意的LLM,使其能够根据需求按需检索段落,并使用特殊的反思token来生成和反思检索到的段落以及自身的生成内容。反思token在推理阶段使LLM可控,使其能够根据不同任务需求调整行为原创 2024-05-30 23:00:01 · 1147 阅读 · 0 评论 -
【论文速读】模型混合的魅力:《Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM》
通过简单的模型混合,随机从一组基础聊天模型中选择响应,混合后的组合聊天输出具有很好的性能。简单地混合多个较小的开源系统,而且无需增加任何推理成本,就可以大幅改善用户的对话体验。原创 2024-05-28 22:23:22 · 1071 阅读 · 0 评论 -
【论文速读】LLM-Augmented Retrieval:EnhancingRetrievalModels Through LanguageModels and DocLevel Embedding
这篇文章提出了一种与检索模型无关的框架框架,通过大型语言模型来丰富文档的嵌入,显著提高了现有检索模型的性能。原创 2024-05-24 22:54:36 · 1436 阅读 · 0 评论 -
【论文阅读】要使用工具!《Toolformer: Language Models Can Teach Themselves to Use Tools》
语言模型(LMs)表现出了从极少量的示例或文本指令中解决新任务的显著能力,尤其是在模型规模较大时表现的更加显著。矛盾的是,它们也在与基本功能作斗争,如算术或事实查找,在这些功能中,更简单、更小的模型脱颖而出。在本文中,我们展示了LMs可以通过简单的API自学使用外部工具,从而实现两全其美。我们介绍了Toolformer,这是一个经过训练的模型,用于决定调用哪些API,何时调用它们,传递什么参数,以及如何将结果最好地结合到未来的Token预测中。这是以一种自监督的方式完成的,只需要为每个API进行少量的演示。原创 2024-05-22 21:49:57 · 1292 阅读 · 0 评论 -
【论文阅读】《SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions》论文中的几个实现细节
指令生成、分类任务识别和实例生成,都是通过Prompt工程,借此也学习一下如何写Prompt原创 2024-05-17 22:13:00 · 1207 阅读 · 0 评论 -
【AI学习】对指令微调(instruction tuning)的理解
在FLAN系列的论文中,谷歌提出了指令微调的概念,通过自然语言指令描述的任务数据集对预训练后的语言模型进行微调,用于提高语言模型的零样本学习能力。原创 2024-05-14 21:10:02 · 840 阅读 · 0 评论 -
【论文阅读】《The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks》
论文先后采用了两种方法,一种是Strawman方法,但是这种方法表现不够稳定,于是又进一步提出Janus方法。简单来说,Strawman方法是采用指令微调,Janus是采用继续预训练的方式。研究者们发现即使是在小规模的PII数据集上进行微调,也能显著提高LLMs恢复和泄露隐藏PII的能力。此外,文章还指出,更大的模型在训练数据上具有更强的记忆能力,从而更容易恢复遗忘的PII,并且对PII恢复攻击更为敏感。原创 2024-05-11 23:19:24 · 1193 阅读 · 1 评论 -
【论文速读】自我指导!《SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions》
这篇论文,感觉非常有意思,让语言模型自主生成新任务的指令,激发语言模型自身潜力,自我指导,实现自我超越!原创 2024-05-10 21:32:05 · 1058 阅读 · 0 评论 -
【论文速读】《The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks》
文章的主要观点是,LLMs的微调可能成为绕过为保护隐私而实施的安全措施的一种手段。通过Janus攻击,研究者们发现即使是在小规模的PII数据集上进行微调,也能显著提高LLMs恢复和泄露隐藏PII的能力。此外,文章还指出,更大的模型在训练数据上具有更强的记忆能力,从而更容易恢复遗忘的PII,并且对PII恢复攻击更为敏感原创 2024-05-08 22:44:37 · 786 阅读 · 1 评论 -
【论文阅读】通信定位技术《Neural RF SLAM for unsupervised positioning and mapping with channel state information》
文章的思路是通过SLAM技术,在无监督的方式下,通过没有标记位置信息的信道状态信息(CSI)实现联合用户定位和环境构建,此方法不增加额外的现场数据标注成本,并且适应性更好原创 2024-05-06 21:39:09 · 1368 阅读 · 1 评论 -
【论文阅读】何时检索?《When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively》
文章解决的主要问题是如何在问答任务中有效地利用信息检索系统。传统的检索方法(如TF-IDF或BM-25)只能检索具有关键词重叠的文档,并且存在词汇差距问题。此外,信息检索系统的性能对于检索增强型模型至关重要,因为它将限制模型性能的上限。文章指出,对于高流行度的问题,LLM可以仅依赖其参数记忆来回答问题,而对于低流行度的问题,则需要使用IR系统。原创 2024-05-06 20:42:34 · 1391 阅读 · 5 评论 -
【论文阅读】ChipNeMo中的对齐技术,《SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF》
SteerLM,一种监督式微调方法,允许最终用户在推理期间控制响应。SteerLM 使响应符合明确定义的多维属性集,从而使可操纵的 AI (steerable AI)能够生成有用且高质量的响应,同时保持可定制性原创 2024-05-02 21:58:02 · 1134 阅读 · 2 评论 -
【论文阅读】ChipNeMo中的数据集处理
1)对于数据集,除了领域数据,依然需要公共数据,避免由于微调带来模型原有能力的灾难性遗忘。2)需要有领域评估基准,同样的,评估基准需要包含公共的LLM学术基准。3)数据重采样,这个方面,比如文章提到“对代码数据进行了下采样,同时对自然语言数据,特别是设计文档进行了上采样”等,但是,具体的采样比例如何获得,文章并没有说。参考其他来源,数据重采样的合适比例,应该是通过尝试获得,训练后如果评估效果不好,相应调整数据采样比例,反复试验获得的良好的评估结果。原创 2024-04-30 20:52:07 · 1869 阅读 · 1 评论
分享