![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AI论文阅读
文章平均质量分 92
bylander
这个作者很懒,什么都没留下…
展开
-
【论文速读】《Large Multi-Modal Models (LMMs) as Universal Foundation Models for AI-Native Wireless System》
如何将LMM应用于通信领域,这是我作为通信专业人士,必须关心的一个话题。这篇文章,总的来说,关于已有探索的局限性分析的不错,关于后面的开放性问题也总结的不错。但是文章提出的框架,还是有些过于概念化。原创 2024-07-10 22:40:14 · 670 阅读 · 0 评论 -
【论文速读】《面向深度学习的联合消息传递与自编码器》,无线AI的挑战和解决思路
文章对我比较有启发的地方,是提到自编码架构的全局收发机面临的主要问题.原创 2024-07-10 22:38:53 · 777 阅读 · 0 评论 -
【论文速读】解码器-解码器架构 YOCO,《You Only Cache Once: Decoder-Decoder Architectures for Language Models》
文章为大型语言模型引入了一个解码器-解码器架构 YOCO,它只缓存一次键值对。它由两个组件组成,即堆叠在自解码器上的交叉解码器。自解码器有效地对全局键值 (KV) 缓存进行编码,交叉解码器通过交叉注意力重用这些缓存。整个模型的行为类似于仅解码器的 Transformer,尽管 YOCO 只缓存一次。该设计大大**降低了 GPU 内存需求,同时保留了全局注意力能力**。此外,计算流程可以在不改变最终输出的情况下提前预填充,从而显著加快预填充阶段。实验结果表明,YOCO在模型规模和训练令牌数量等各种设置下均比T原创 2024-07-04 10:52:05 · 1056 阅读 · 0 评论 -
【论文阅读】MOA,《Mixture-of-Agents Enhances Large Language Model Capabilities》
文章提出了一种新的方法,称为 Mixture-of-Agents(MoA),利用多个大型语言模型(LLMs)的集体优势来提高自然语言理解和生成任务的性能。MoA 方法通过构建分层的 MoA 架构,每层包含多个 LLM Agents,每个Agent使用前一层所有Agents的输出作为辅助信息来生成其响应。MoA 模型在 AlpacaEval 2.0、MT-Bench 和 FLASK 等基准测试中取得了最先进的性能,超越了 GPT-4 Omni。原创 2024-06-19 22:22:07 · 1327 阅读 · 0 评论 -
【AI学习】LLaMA 系列模型的进化(一)
一直对LLaMA 名下的各个模型关系搞不清楚,什么羊驼、考拉的,不知所以。幸好看到两篇综述,有个大致了解,以及SEBASTIAN RASCHKA中对LLaMa 3的介绍。做一个记录原创 2024-06-15 23:01:41 · 1114 阅读 · 0 评论 -
【论文速读】CoPE,基于上下文的位置编码,《Contextual Position Encoding: Learning to Count What’s Important》
Transformer 架构的位置编码,是解决注意力机制缺乏序列信息的问题,但是以往的位置编码是基于Token级别的,所以LLM难以建立句子级别的更高层次的序列信息,也就很难关注到句子的概念。CopE是基于上下文的位置编码,解决了这个问题原创 2024-06-10 22:51:41 · 1312 阅读 · 0 评论 -
【论文速读】MOD,《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》
Transformer模型在前向传播中对每个token均匀分配计算资源,这在处理不同的语言建模问题时并不高效,因为并非所有token和序列都需要相同的计算量来进行准确预测。MoD模型旨在解决这一问题,通过动态分配计算资源,以更高效地使用计算预算。原创 2024-06-07 23:36:31 · 894 阅读 · 0 评论 -
【论文阅读】SELF-RAG,让模型决策和反思检索
Self-Rag框架训练流程涉及两个模型,一个是评价模型(Critic Model),一个是生成模型(Generator Model)。大概方法是,借助GPT-4形成数据集,训练评价模型;然后通过评价模型,生成新的数据集,再来训练生成模型。原创 2024-06-06 21:16:05 · 1168 阅读 · 1 评论 -
【论文速读】LM的文本生成方法,Top-p,温度,《The Curious Case of Neural Text Degeneration》
这篇文章,描述的是语言模型的文本生成的核采样的方法,就是现在熟知的top-p大概看看,还有几个地方比较有趣,值得记录一下。原创 2024-06-06 20:58:55 · 585 阅读 · 0 评论 -
【论文速读】逐层扩展,《OpenELM: An Efficient Language Model Family with Open Training and Inference Framework》
这篇文章的标题是《OpenELM: An Efficient Language Model Family with Open Training and Inference Framework》,由 Sachin Mehta 等人撰写,来自苹果公司,旨在提供用于在移动设备上部署的小型 LLM。文章的亮点是逐层扩展(Layer-wise scaling)技术,它允许跨层更有效地分配参数。原创 2024-05-30 23:01:21 · 852 阅读 · 0 评论 -
【论文速读】Self-Rag框架,《Self-Rag: Self-reflective Retrieval augmented Generation》
Self-Rag框架训练一个任意的LLM,使其能够根据需求按需检索段落,并使用特殊的反思token来生成和反思检索到的段落以及自身的生成内容。反思token在推理阶段使LLM可控,使其能够根据不同任务需求调整行为原创 2024-05-30 23:00:01 · 869 阅读 · 0 评论 -
【论文速读】模型混合的魅力:《Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM》
通过简单的模型混合,随机从一组基础聊天模型中选择响应,混合后的组合聊天输出具有很好的性能。简单地混合多个较小的开源系统,而且无需增加任何推理成本,就可以大幅改善用户的对话体验。原创 2024-05-28 22:23:22 · 926 阅读 · 0 评论 -
【论文速读】LLM-Augmented Retrieval:EnhancingRetrievalModels Through LanguageModels and DocLevel Embedding
这篇文章提出了一种与检索模型无关的框架框架,通过大型语言模型来丰富文档的嵌入,显著提高了现有检索模型的性能。原创 2024-05-24 22:54:36 · 1262 阅读 · 0 评论 -
【论文阅读】要使用工具!《Toolformer: Language Models Can Teach Themselves to Use Tools》
语言模型(LMs)表现出了从极少量的示例或文本指令中解决新任务的显著能力,尤其是在模型规模较大时表现的更加显著。矛盾的是,它们也在与基本功能作斗争,如算术或事实查找,在这些功能中,更简单、更小的模型脱颖而出。在本文中,我们展示了LMs可以通过简单的API自学使用外部工具,从而实现两全其美。我们介绍了Toolformer,这是一个经过训练的模型,用于决定调用哪些API,何时调用它们,传递什么参数,以及如何将结果最好地结合到未来的Token预测中。这是以一种自监督的方式完成的,只需要为每个API进行少量的演示。原创 2024-05-22 21:49:57 · 1197 阅读 · 0 评论 -
【论文阅读】《SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions》论文中的几个实现细节
指令生成、分类任务识别和实例生成,都是通过Prompt工程,借此也学习一下如何写Prompt原创 2024-05-17 22:13:00 · 1088 阅读 · 0 评论 -
【AI学习】对指令微调(instruction tuning)的理解
在FLAN系列的论文中,谷歌提出了指令微调的概念,通过自然语言指令描述的任务数据集对预训练后的语言模型进行微调,用于提高语言模型的零样本学习能力。原创 2024-05-14 21:10:02 · 611 阅读 · 0 评论 -
【论文阅读】《The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks》
论文先后采用了两种方法,一种是Strawman方法,但是这种方法表现不够稳定,于是又进一步提出Janus方法。简单来说,Strawman方法是采用指令微调,Janus是采用继续预训练的方式。研究者们发现即使是在小规模的PII数据集上进行微调,也能显著提高LLMs恢复和泄露隐藏PII的能力。此外,文章还指出,更大的模型在训练数据上具有更强的记忆能力,从而更容易恢复遗忘的PII,并且对PII恢复攻击更为敏感。原创 2024-05-11 23:19:24 · 1059 阅读 · 1 评论 -
【论文速读】自我指导!《SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions》
这篇论文,感觉非常有意思,让语言模型自主生成新任务的指令,激发语言模型自身潜力,自我指导,实现自我超越!原创 2024-05-10 21:32:05 · 781 阅读 · 0 评论 -
【论文速读】《The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks》
文章的主要观点是,LLMs的微调可能成为绕过为保护隐私而实施的安全措施的一种手段。通过Janus攻击,研究者们发现即使是在小规模的PII数据集上进行微调,也能显著提高LLMs恢复和泄露隐藏PII的能力。此外,文章还指出,更大的模型在训练数据上具有更强的记忆能力,从而更容易恢复遗忘的PII,并且对PII恢复攻击更为敏感原创 2024-05-08 22:44:37 · 683 阅读 · 1 评论 -
【论文阅读】通信定位技术《Neural RF SLAM for unsupervised positioning and mapping with channel state information》
文章的思路是通过SLAM技术,在无监督的方式下,通过没有标记位置信息的信道状态信息(CSI)实现联合用户定位和环境构建,此方法不增加额外的现场数据标注成本,并且适应性更好原创 2024-05-06 21:39:09 · 1045 阅读 · 1 评论 -
【论文阅读】何时检索?《When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively》
文章解决的主要问题是如何在问答任务中有效地利用信息检索系统。传统的检索方法(如TF-IDF或BM-25)只能检索具有关键词重叠的文档,并且存在词汇差距问题。此外,信息检索系统的性能对于检索增强型模型至关重要,因为它将限制模型性能的上限。文章指出,对于高流行度的问题,LLM可以仅依赖其参数记忆来回答问题,而对于低流行度的问题,则需要使用IR系统。原创 2024-05-06 20:42:34 · 1252 阅读 · 5 评论 -
【论文阅读】ChipNeMo中的对齐技术,《SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF》
SteerLM,一种监督式微调方法,允许最终用户在推理期间控制响应。SteerLM 使响应符合明确定义的多维属性集,从而使可操纵的 AI (steerable AI)能够生成有用且高质量的响应,同时保持可定制性原创 2024-05-02 21:58:02 · 995 阅读 · 2 评论 -
【论文阅读】ChipNeMo中的数据集处理
1)对于数据集,除了领域数据,依然需要公共数据,避免由于微调带来模型原有能力的灾难性遗忘。2)需要有领域评估基准,同样的,评估基准需要包含公共的LLM学术基准。3)数据重采样,这个方面,比如文章提到“对代码数据进行了下采样,同时对自然语言数据,特别是设计文档进行了上采样”等,但是,具体的采样比例如何获得,文章并没有说。参考其他来源,数据重采样的合适比例,应该是通过尝试获得,训练后如果评估效果不好,相应调整数据采样比例,反复试验获得的良好的评估结果。原创 2024-04-30 20:52:07 · 1687 阅读 · 1 评论 -
【论文阅读】ChipNeMo中的领域适配检索模型
对 RAG 使用领域适配语言模型可以显著提高特定领域的问题的答案质量。此外,文章还观察到,使用适量的领域特定训练数据微调现成的无监督预训练检索模型,检索命中率有了显著提高,可以显著提高检索准确性。原创 2024-04-30 20:40:41 · 677 阅读 · 0 评论 -
【论文阅读】LLM撰写长文!《Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models》
文章提出了 STORM,一个写作系统,用于通过检索和多角度提问来合成主题大纲。STORM 通过以下方式模拟写作前阶段:(1) 在研究给定主题时发现不同的视角,(2) 模拟对话,其中带有不同视角的写作者向基于互联网可信来源的主题专家提出问题,(3) 策划收集到的信息以创建大纲。原创 2024-04-27 21:07:38 · 851 阅读 · 0 评论 -
【论文阅读】《Octopus v2: On-device language model for super agent》,端侧大模型的应用案例
这篇文章的核心就是,如何根据用户要求,让语言模型能够正确的进行API函数调用。文章的方法,简单说,就是把各种API函数的函数名,作为functional token新增到词汇表,把函数查询变成一个基于语言模型的分类问题。同时,为了选择正确的functional token,语言模型必须理解与该token相关联的含义,通过将函数描述纳入训练数据集,让模型完成相关知识学习。原创 2024-04-26 20:54:45 · 1122 阅读 · 0 评论 -
【论文阅读】Self-DC:何时检索,何时生成?
对于RAG来说,什么时候利用外部检索,什么时候使用大模型产生已知的知识,以回答当前的问题?这是一个非常有趣的话题。《Self-DC: When to retrieve and When to generate? Self Divide-and-Conquer for Compositional Unknown Questions》这篇论文正好探讨了这个问题。原创 2024-04-25 21:17:54 · 1496 阅读 · 1 评论 -
【论文阅读】2023年图灵奖得主Avi Wigderson的最新论文,《Constant-Depth Arithmetic Circuits for Linear Algebra Problems》
论文《Constant-Depth Arithmetic Circuits for Linear Algebra Problems》主要研究了常数深度算术电路在线性代数问题中的应用。从技术角度来看,这篇论文的核心贡献在于提出了一个高效的算法框架,使得处理这些数学问题时能够保持计算复杂度和资源消耗在一个相对较低的水平。这种设计特别适用于需要大量并行计算的场景,如云计算或高性能计算环境原创 2024-04-23 23:08:06 · 628 阅读 · 0 评论 -
【论文阅读】MOE,《OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER》
MoE这种方法很容易想象,因为人的大脑有类似的机制。人的大脑针对不同的任务,只有部分的神经元集群激发进行工作,大脑的不同区域有不同的分工。原创 2024-04-23 21:41:48 · 527 阅读 · 1 评论 -
【论文阅读】《Large Language Models for Networking: Applications, Enabling Techniques, and Challenges》
文章探讨了大型语言模型(LLMs)在网络领域的应用,并提出了一些使能技术和面临的挑战。原创 2024-04-22 21:01:17 · 774 阅读 · 0 评论 -
【论文阅读】ChipNeMo中的领域适配分词技术
这种领域适配分词的方法,旨在通过适应领域特定的术语和模式来提高LLM在特定领域数据集上的性能,同时保持其在一般数据集上的泛化能力。原创 2024-04-22 20:54:13 · 894 阅读 · 0 评论 -
【论文阅读】IndoBERTweet,如何高效的进行领域适配分词
文章提出了IndoBERTweet,这是一个针对印尼语推特数据的大型预训练模型。这个模型通过在单语种训练的印尼语BERT模型基础上增加特定领域的词汇来训练,特别关注在词汇不匹配情况下的高效模型适应性,并通过不同的方式初始化BERT嵌入层来适应新词类型。原创 2024-04-21 22:11:39 · 581 阅读 · 1 评论 -
【AI学习】对RAG的理解
微调与RAG之间的关系,比较喜欢一个通俗的解释:微调有点像闭卷考试,将专业知识注入到模型中,RAG有点像开卷考试,可以让你带着资料,但是呢,虽然最后是开卷考试,但是老师平时还是要按照闭卷考试的难度去要求学生学习,这样有了能够应对闭卷考试的水平,才能够在开卷考试中有更好的成绩,否则,抄都不知道怎么抄。微调 vs RAG,这两个技术,相辅相成,不矛盾原创 2024-04-20 10:30:06 · 533 阅读 · 0 评论 -
【论文阅读】BGE Landmark Embedding: 一种用于大语言模型长上下文检索增强的嵌入方法
BGE Landmark Embedding这篇论文要解决的技术问题,在RAG技术中,分块是个麻烦的问题,通常通过经验或启发式方法来解决。但是无论如何,分块打破上下文的连贯性,对嵌入不利,另一方面,连续的信息可能划分到不同的块中,显著的块可以很容易地被检索到,其他有用但不那么显著的块可能被忽视,等等问题。那分块有问题,但是文本太长时又不能不分块,采用滑动窗口就成为一个自然的选择。原创 2024-04-20 10:18:33 · 1167 阅读 · 0 评论 -
【论文阅读】机器翻译新范式,《A Paradigm Shift in Machine Translation》
论文提出了一种基于LLM的机器翻译的新范式,性能好,并且降低了对翻译数据的监督数据的数据量需求,只需要基于单语数据进行无监督的继续预训练和少量翻译数据的有监督微调,就能达到甚至优于传统的编码器-解码器结构的机器翻译性能原创 2024-04-19 21:10:32 · 930 阅读 · 1 评论 -
【论文阅读】英伟达ChipNeMo,一个领域大模型的训练案例
这是英伟达针对芯片设计训练的一个领域大模型(ChipNeMo),使用了微调和RAG的组合技术,论文有针对技术细节的大量对比分析,对于理解微调和RAG技术,是一个非常好的技术案例原创 2024-04-17 21:27:01 · 977 阅读 · 0 评论 -
【论文阅读】谷歌Infini-Transformer,一种长上下文的注意力机制
谷歌最新论文《Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention》,提出了一种新的方法来扩展基于Transformer的大型语言模型(LLMs),使其能够高效处理无限长的输入序列,同时保持内存和计算资源的有界性原创 2024-04-16 22:07:42 · 1239 阅读 · 1 评论