LLM Training
文章平均质量分 65
主要是LLM训练相关的paper,针对训练加速,微调等相关内容。涉及的关键词包括finetuning以及training。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
TEST-TIME TRAINING ON NEAREST NEIGHBORS FOR LARGE LANGUAGE MODELS
最近的许多工作通过将检索到的数据添加到输入上下文来增强语言模型的检索功能。要使此方法成功,必须在训练和测试时添加检索到的数据。此外,随着输入长度随检索数据的大小线性增长,现代 Transformer 的计算和内存成本呈二次方增长。为了避免这些复杂性,我们只需在测试时使用其标准训练设置,根据检索到的数据对模型进行微调。我们基于 Pile 数据集的文本嵌入构建了一个大规模分布式索引。对于每个测试输入,我们的系统会检索其邻居并根据其文本微调模型。原创 2024-10-11 09:00:00 · 119 阅读 · 0 评论 -
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training
大型语言模型(LLM)在各种复杂任务中的巨大成功在很大程度上依赖于其巨大的规模,由于其大量的内存消耗,这给模型部署带来了挑战。最近,许多研究尝试使用一次性剪枝方法来压缩 LLM。然而,这些方法在复杂的语言理解任务上通常会出现相当大的性能下降,这使人们对LLM中剪枝的可行性产生了质疑。为了解决这个问题,我们提出了一种通过再训练对半结构化稀疏模型进行修剪的管道,称为自适应稀疏训练器(AST)。原创 2024-09-23 09:39:36 · 358 阅读 · 0 评论 -
TRAINING-FREE ACTIVATION SPARSITY IN LARGE LANGUAGE MODELS
激活稀疏性可以通过减少前向传递期间矩阵乘法所需的计算和内存移动,在大型语言模型 (LLM) 中实现实际推理加速。然而,现有方法面临阻碍广泛采用的局限性。一些方法是为具有基于 ReLU 的稀疏性的旧模型量身定制的,而另一些方法则需要对多达数千亿个token进行广泛的持续预训练。本文描述了 TEAL (大模型中的无需训练激活稀疏性),这是一种简单的免训练方法,将基于幅度的激活稀疏性应用于整个模型中的隐藏状态。原创 2024-09-13 14:19:57 · 47 阅读 · 0 评论 -
CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark
大型语言模型 (LLM) 的快速发展促使创建了许多基准来评估其功能。本研究侧重于中文综合医学基准 (CMB),展示了监督微调 (SFT) 中的数据集多样性和分布如何提高 LLM 表现。值得注意的是,我们成功地训练了一个较小的基础模型,以获得与较大模型相当的分数,这表明无论模型大小如何,多样化且分布良好的数据集都可以优化性能。这项研究表明,即使是更小的模型,通过精心策划和多样化的数据集也可以达到高性能水平。通过整合广泛的指令内容,我们的方法解决了数据质量不一致等潜在问题。原创 2024-09-11 09:28:57 · 128 阅读 · 0 评论 -
Memory-Efficient LLM Training with Online Subspace Descent
最近,各种内存高效的LLM训练算法得到了广泛的应用。这些方法利用梯度的低秩结构,使用奇异值分解(SVD)得到的投影矩阵将优化器状态投影到子空间中。然而,这些算法的收敛性在很大程度上取决于其投影矩阵的更新规则。在这项工作中,我们为投影矩阵的任意更新规则提供了第一个收敛保证。这个保证通常适用于可以用哈密顿下降分析的优化器,包括最常见的优化器,如LION、Adam。受我们理论理解的启发,我们提出了在线子空间下降,这是一个新的无SVD子空间下降优化器家族。原创 2024-09-06 09:50:37 · 298 阅读 · 0 评论 -
Lucky 52: How Many Languages Are Needed to Instruction Fine-Tune Large Language Models?
为多语言下游任务微调大型语言模型需要一组不同的语言来有效地捕捉不同语言上下文的细微差别和结构。虽然具体数量因所需的范围和目标语言而异,但我们认为,语言数量、语言暴露和包含微调语言选择的相似性是需要研究的一些重要方面。通过对1到52种语言的大型多语言模型进行微调,本文回答了一个问题:多语言任务的指令微调需要多少种语言?我们研究了随着语言数量的增加,多语言指令微调模型在多语言基准上的表现,并从语言暴露和相似性的角度讨论了我们的发现。原创 2024-08-31 10:22:21 · 780 阅读 · 0 评论 -
The Fine Line: Navigating Large Language Model Pretraining with Downstreaming Capability Analysis
揭示反映最终模型性能的早期指标是大规模预训练的一个核心原则。现有的标度律证明了预训练损失和训练失败之间的幂律相关性,这是大型语言模型当前训练状态的重要指标。然而,这一原则只关注模型对训练数据的压缩特性,导致与下游任务的能力提升不一致。一些后续工作试图将缩放定律扩展到更复杂的度量(如超参数),但仍然缺乏对预训练期间各种能力之间动态差异的全面分析。为了解决上述局限性,本文对各种预训练中间检查点的模型能力进行了全面比较。原创 2024-08-26 17:16:44 · 26 阅读 · 0 评论 -
STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language
尽管大型语言模型(LLMs)已经通过提示方法证明了小样本学习的强大能力,但对于复杂的推理任务来说,监督训练仍然是必要的。由于其广泛的参数和内存消耗,已经为LLM提出了参数高效微调(PEFT)方法和内存高效微调方法。然而,大注释数据消耗问题,即数据高效微调的目标,仍未得到探索。一个明显的方法是将PEFT方法与主动学习相结合。然而,实验结果表明,这种组合并非微不足道,并会产生较差的结果。通过探针实验,这种观察可能有两个主要原因:不确定性差距和模型校准不佳。原创 2024-07-29 14:28:59 · 127 阅读 · 0 评论 -
Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models
近年来,高级智能生成内容(AIGC),特别是大型语言模型(LLMs)的发展激增。然而,对于许多下游任务,有必要使用私有数据对LLM进行微调。虽然联邦学习为LLM微调提供了一种有前景的隐私保护解决方案,但LLM的庞大规模,再加上高计算和通信需求,使得它很难应用于下游任务。更重要的是,在现实世界中,私有边缘服务器通常拥有不同的计算和网络资源,这给LLM微调带来了额外的复杂性。为了解决这些问题,我们设计并实现了一个名为FedPipe的自动化联邦管道,以最小的训练成本微调LLM,但不会增加任何推理延迟。原创 2024-07-11 17:24:10 · 60 阅读 · 0 评论 -
Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Model
参数高效微调(PEFT)方法已被广泛应用于大型语言模型(LLM)中,以改进下行任务,而无需对整个LLM进行微调。最近的研究表明,如何有效地使用PEFT来微调LLM,以对具有令人信服的表现的任务进行排名;存在一些局限性,包括针对不同文档的学习提示是固定的,对特定任务的过度拟合,以及适应能力低。在本文中,我们提出了一种用于文本重新排序的查询相关参数高效微调(Q-PEFT)方法,该方法为LLM提供了关于真实查询的见解,从而促进了从输入文档生成真实查询。原创 2024-07-11 16:12:03 · 35 阅读 · 0 评论 -
LLMTune: Accelerate Database Knob Tuning with Large Language Models
数据库Knob 调优是数据库社区中的一个关键挑战,旨在优化Knob值(即配置),以提高特定工作负载的数据库性能。现代数据库管理系统(DBMS)通常具有数百个可调Knob,每个Knob都有连续或离散的值,这对数据库管理员(DBA)推荐最佳配置提出了重大挑战。因此,已经开发了一系列基于机器学习(ML)的调整方法来自动化该配置过程。即使随着各种优化器的引入,实际应用中出现了一个新问题:这些方法通常需要大量的工作负载运行才能获得令人满意的性能,这一过程既耗时又耗费资源。原创 2024-07-04 09:54:31 · 97 阅读 · 0 评论 -
Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training
虽然大型语言模型(LLM)在不同的任务中取得了令人印象深刻的性能,但最近的研究表明,因果LLM受到了“逆转诅咒”。这是一个典型的例子,模型知道“a的父亲是B”,但无法推理“B的孩子是a”。这一限制对通用人工智能(AGI)的进步提出了挑战,因为它表明模型理解和应用双向推理的能力存在差距。在本文中,我们首先进行了实质性的评估,并确定反向诅咒的根本原因在于训练和推理阶段之间的语序不同,即因果语言模型在训练数据中预测先行词的能力较差。原创 2024-07-01 10:09:13 · 184 阅读 · 0 评论 -
Parameter-Efficient Tuning Large Language Models for Graph Representation Learning
富含文本的图在节点和边上显示了丰富的文本信息,在各种现实世界的业务应用程序中都很普遍。大型语言模型(LLM)在理解文本方面表现出了非凡的能力,这也为在富含文本的图中进行更具表现力的建模带来了潜力。尽管有这些能力,但将LLM有效地应用于图上的表示学习是一项重大挑战。最近,LLM的参数高效微调方法以最小的时间和内存消耗实现了高效的新任务泛化。受此启发,我们引入了图感知参数高效微调-GPEFT,这是一种在富含文本的图上使用LLM进行高效图表示学习的新方法。原创 2024-06-28 10:21:51 · 125 阅读 · 0 评论 -
Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories
摘要1 引言2 相关工作3 问题定义4 方法5 实验6 结论和局限性尽管在预训练和指令微调阶段,大型语言模型(LLM)的数据选择是有效的,但由于微调数据的复杂性,在专业领域的监督微调(SFT)中提高数据效率带来了重大挑战。为了弥补这一差距,我们为SFT引入了一种有效且可扩展的数据选择方法SMALLTOLARGE(S2L),该方法利用小模型的训练轨迹来指导大模型的数据选择。原创 2024-06-27 14:17:58 · 45 阅读 · 0 评论 -
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning
自大型语言模型(LLM)首次出现以来,机器学习社区已经取得了令人印象深刻的进步。然而,他们的大量内存消耗已经成为大规模训练的一个重要障碍。例如,7B模型通常需要至少60GB的GPU内存和全参数训练,这给无法访问高资源环境的研究人员带来了挑战。已经提出了诸如低秩自适应(LoRA)之类的参数有效微调技术来缓解这个问题。然而,在大多数大规模微调设置中,它们的性能没有达到全参数训练的水平,因为它们将参数搜索限制在低秩子空间。原创 2024-06-26 15:46:02 · 86 阅读 · 0 评论 -
AdaPrompt: Adaptive Model Training for Prompt-based NLP
提示学习以其处理零样本和小样本NLP任务的能力,在社区中受到了广泛关注。其主要思想是通过将NLP下游任务映射到自然语言提示中,然后由预训练的语言模型(PLM)填充,来弥合NLP下游工作与语言建模(LM)之间的差距。然而,对于提示学习,NLP任务和预训练之间仍然存在两个显著的差距。首先,在LM预训练期间,提示信息不一定充分存在。其次,在预训练过程中,任务特定的数据不一定能很好地表示出来。我们通过提出AdaPrompt来解决这两个问题,该方法利用任务和提示特征自适应地检索外部数据,用于PLM的连续预训练。原创 2024-06-14 16:50:23 · 50 阅读 · 0 评论 -
Continual Training of Language Models for Few-Shot Learning
最近关于应用大型语言模型(LM)的工作在许多NLP应用程序中取得了令人印象深刻的性能。使用未标记的领域语料库调整或后训练LM可以为该领域中的最终任务产生更好的性能。本文提出了通过用一系列未标记的领域语料库对LM进行增量后训练来不断扩展LM的问题,以在不忘记其先前技能的情况下扩展其知识。目标是改进这些领域中的小样本末端任务学习。由此产生的系统被称为CPT(持续后训练),据我们所知,这是第一个持续后训练系统。实验结果验证了其有效性。原创 2024-06-14 15:42:20 · 62 阅读 · 0 评论 -
Dark Experience for General Continual Learning: a Strong, Simple Baseline
持续学习激发了大量的方法和评估环境;然而,它们中的大多数忽略了实际场景的属性,在实际场景中,数据流不能被塑造为一系列任务,离线训练是不可行的。我们致力于一般持续学习(GCL),即任务边界模糊,领域和类别分布逐渐或突然发生变化。我们通过将排练与知识蒸馏和规则化相结合来解决这一问题;我们的简单基线Dark Experience Replay与整个优化轨迹中采样的网络logits相匹配,从而提高了与过去的一致性。原创 2024-06-14 15:23:34 · 113 阅读 · 0 评论 -
ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models
参数有效微调(PEFT)在大语言模型时代因其有效性和效率而被广泛研究。低秩自适应(LoRA)作为一种流行且具有代表性的方法,表现出了值得称赞的性能。然而,它是用固定的内在秩来实现的,这可能不是下游任务的理想设置。认识到需要更灵活的下游任务自适应,我们将LoRA的方法扩展到一种创新的方法,我们称之为分配低秩自适应(ALoRA),该方法能够在自适应过程中对固有秩进行动态调整。首先,我们提出了一种新的方法AB-LoRA,它可以有效地估计每个LoRA秩的重要性得分。原创 2024-06-13 10:44:33 · 169 阅读 · 0 评论 -
Let’s Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model
大型语言模型(LLM)由表现出各种行为和角色的神经元组成,随着模型的扩展,这些行为和角色变得越来越多样化。最近的研究表明,并非所有神经元在不同的数据集中都是活跃的,这种稀疏性与特定任务的能力呈正相关,从而提高了模型修剪和训练效率。传统的微调方法涉及LLM的所有参数,这在计算上是昂贵的,并且可能不是必要的。相反,参数有效微调(PEFT)方法旨在最大限度地减少可训练参数的数量,但它们仍然在相对宏观的尺度上运行(例如,层级别)。原创 2024-06-01 23:54:22 · 81 阅读 · 0 评论 -
A Data-efficient Continual Learning Paradigm for Fine-tuning Large Language Models with Instructions
指令调优有效地优化了用于下游任务的大型语言模型(LLM)。由于现实应用程序中不断变化的环境,LLM需要在不发生灾难性遗忘的情况下持续进行特定任务的适应。考虑到高昂的计算成本,基于重放的连续学习(CL)方法是LLM解决遗忘问题最简单、最广泛使用的方法。然而,传统的基于重放的方法没有完全利用指令来定制重放策略。在这项工作中,我们提出了一种新的范式,称为基于指令的持续学习(InsCL)。InsCL根据Wasserstein Distance与指令计算的任务相似性,动态回放先前的数据。原创 2024-05-30 17:46:50 · 70 阅读 · 0 评论 -
Dial-insight: Fine-tuning LLMs with High-Quality Domain-Specific Data Preventing Capability Collapse
大型语言模型(LLM)的有效性在很大程度上取决于基础数据的质量,尤其是在专业领域内。为特定领域的应用程序微调LLM时,一个常见的挑战是模型泛化能力的潜在退化。为了解决这些问题,我们提出了一种分两阶段构建生产提示的方法,旨在生成高质量的数据。这种方法包括生成一系列不同的提示,这些提示涵盖了广泛的任务,并表现出丰富多样的表达方式。此外,我们引入了一个具有成本效益的多维质量评估框架,以确保生成的标签数据的完整性。利用由房地产行业的服务提供商和客户互动组成的数据集,我们证明了数据质量和模型性能之间的正相关性。原创 2024-05-28 16:32:28 · 75 阅读 · 0 评论 -
Unveiling the Generalization Power of Fine-Tuned Large Language Models
虽然大型语言模型(LLM)已经证明了非凡的多任务处理能力,但在下游特定领域的数据集上对这些模型进行微调通常是必要的,以在测试集上产生优于未进行微调的测试集的性能。然而,微调对LLM泛化能力的综合影响还没有完全理解。本文深入探讨了原始、未修改的LLM及其微调变体之间的差异。我们的主要研究集中在微调是否会影响LLM固有的泛化能力。为了详细说明这一点,我们在不同的数据集上对五种不同的语言任务进行了广泛的实验。我们的主要发现表明,对生成和分类任务进行微调的模型在推广到不同的领域和任务时表现出不同的行为。原创 2024-05-28 11:29:23 · 121 阅读 · 0 评论 -
Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language Models
指令调优有可能激发或增强大型语言模型(LLM)的特定功能。然而,实现正确的数据平衡对于防止灾难性的遗忘和任务之间的干扰至关重要。为了解决这些局限性并增强训练灵活性,我们提出了LoRA的混合(MoA)架构——一种新颖且参数有效的调整方法,用于LLM的多任务学习。在本文中,我们首先使用相应的监督语料库数据单独训练多个领域特定的LoRA模块。这些LoRA模块可以和专家混合(MoE)中的专家设计原则相一致。原创 2024-05-24 09:27:57 · 186 阅读 · 0 评论 -
Fine-Tuning Large Language Models with Sequential Instructions
大型语言模型(LLM)很难在单个查询中遵循一系列指令,因为它们可能会忽略或误解其中的一部分。这会削弱它们在复杂问题中的性能,这些问题的解决方案需要多个中间步骤,如多语言(翻译然后回答)和多模态(说明然后回答)任务。我们用LLaMA-2 70B和Mixtral-8×7B这样大的开源LLM实证验证了这一点。针对当前数据中顺序指令的稀缺性,我们提出了顺序指令调优(SIT),这是一种简单而有效的策略,可以自动增加指令调优数据,并使LLM具备执行多个顺序指令的能力。原创 2024-05-23 09:13:05 · 123 阅读 · 0 评论 -
LoRA Learns Less and Forgets Less
低秩自适应(LoRA)是一种广泛应用于大型语言模型的参数高效微调方法。LoRA通过仅将低秩扰动训练到选定的权重矩阵来节省内存。在这项工作中,我们比较了LoRA和完全微调在编程和数学两个目标领域的性能。我们同时考虑指令微调(≈100K提示响应对)和连续预训练(≈10B非结构化token)数据机制。我们的研究结果表明,在大多数情况下,LoRA的性能明显不如完全微调。尽管如此,LoRA表现出了一种理想的正则化形式:它可以更好地保持基本模型在目标域外任务上的性能。原创 2024-05-22 16:46:10 · 98 阅读 · 0 评论 -
Derivative-Free Optimization for Low-Rank Adaptation in Large Language Models
诸如LoRA之类的参数有效调整方法可以通过调整一小部分参数来实现与模型调整相当的性能。然而,仍然需要大量的计算资源,因为这个过程涉及计算梯度和在整个模型中执行反向传播。最近,人们致力于利用无导数优化方法来避免梯度的计算,并在小样本设置中展示增强的鲁棒性。在本文中,我们将低阶模块预先设置到模型的每个自注意层中,并使用两种无导数优化方法在每一层交替优化这些低阶模块。原创 2024-05-21 14:55:22 · 43 阅读 · 0 评论 -
STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language
尽管大型语言模型(LLM)已经通过提示方法展示了小样本学习的强大能力,但监督训练对于复杂的推理任务仍然是必要的。由于其广泛的参数和内存消耗,已经提出了用于LLM的参数有效微调(PEFT)方法和内存有效微调方法。然而,作为数据高效微调的目标,大量注释数据消耗的问题仍未得到探索。一个明显的方法是将PEFT方法与主动学习相结合。然而,实验结果表明,这种组合并非微不足道,并且产生较差的结果。通过探针实验,这种观测可能由两个主要原因解释:不确定性差距和模型校准差。原创 2024-05-19 21:04:54 · 84 阅读 · 0 评论 -
Online Training of Large Language Models: Learn while Chatting
大型语言模型(LLM)极大地改变了自然语言处理(NLP)领域,提供了显著的功能,并获得了广泛的使用。然而,LLM和用户之间现有的交互模式受到灵活性、定制限制或缺乏持续学习的限制。这种灵活性尤其明显,因为用户,尤其是那些没有编程技能的用户,增强或个性化模型的途径受到限制。现有框架由于计算效率低和缺乏用户友好的界面,使模型训练和部署过程进一步复杂化。原创 2024-05-17 16:53:02 · 39 阅读 · 0 评论 -
Training LLMs over Neurally Compressed Text
在本文中,我们探讨了在高度压缩的文本上训练大型语言模型(LLM)的想法。虽然标准的子词标记器将文本压缩一小部分,但神经文本压缩器可以实现更高的压缩率。如果有可能直接在神经压缩文本上训练LLM,这将在训练和服务效率方面带来优势,并更容易处理长文本跨度。实现这一目标的主要障碍是,强压缩往往会产生不太适合学习的不透明输出。特别是,我们发现通过算术编码天真地压缩的文本不容易被LLM学习。原创 2024-05-17 10:12:19 · 37 阅读 · 0 评论 -
QDyLoRA: Quantized Dynamic Low-Rank Adaptation for Efficient Large Language Model Tuning
微调大型语言模型需要巨大的GPU内存,限制了获取大型模型的选择。虽然低秩自适应技术的量化版本QLoRA显著缓解了这一问题,但找到有效的LoRA秩仍然具有挑战性。此外,QLoRA是在预定义的秩上进行训练的,因此,在不需要进一步微调步骤的情况下,不能为其较低的秩进行重新配置。本文提出了一种有效的量化动态低秩自适应方法——QDyLoRA。受Dynamic LoRA的启发,QDyLoRA能够在一组预定义的LoRA秩上有效地微调LLM。原创 2024-05-15 16:47:19 · 44 阅读 · 0 评论 -
OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering
背景:LLM越来越有能力完成一系列专业任务,并可用于扩大公平获得医学知识的机会。大多数医学LLM都涉及广泛的微调,利用专门的医学数据和大量的计算能力,因此成本高昂。许多表现最好的LLM都是专有的,其访问权限仅限于极少数研究小组。然而,开源(OS)模型代表了医疗LLM的一个关键增长领域,因为其性能显著提高,并且具有提供医疗保健所需透明度和合规性的内在能力。在这里,我们介绍了OpenMedLM,这是一个提示平台,可在医疗基准上为操作系统LLM提供最先进的(SOTA)性能。方法。原创 2024-05-14 09:59:25 · 286 阅读 · 0 评论 -
The Fine-Grained Complexity of Gradient Computation for Training Large Language Models
大型语言模型(LLM)在过去几年中做出了重要贡献。要训练LLM,需要交替运行“正向”计算和“反向”计算。前向计算可以看作注意力函数评估,而后向计算可以看成梯度计算。在Alman和Song之前的工作中,已经证明了在某些参数状态下,前向步骤可以在几乎线性的时间内执行,但在剩余的参数状态下没有真正的次二次时间算法,除非流行的假设SETH是假的。在这项工作中,我们对计算一层注意力网络的损失函数梯度这一看似困难的问题,以及LLM训练的整个过程,给出了几乎相同的结果。这完全体现了LLM训练每一步的细粒度复杂性。原创 2024-05-11 09:39:40 · 122 阅读 · 0 评论 -
Investigating Continual Pretraining in Large Language Models: Insights and Implications
本文研究了大型语言模型(LLM)中持续学习(CL)的发展领域,重点是制定高效和可持续的训练策略。我们的主要重点是持续的领域自适应预训练,这一过程旨在使LLM能够集成来自各个领域的新信息,同时保留先前学习的知识,并在不依赖特定领域识别的情况下增强跨领域知识转移。与以前的研究不同,以前的研究大多集中在有限的任务或领域选择上,主要旨在解决遗忘问题,我们的研究评估了LLM在实际场景中对不断变化的数据景观的适应性和能力。原创 2024-05-09 11:02:37 · 104 阅读 · 0 评论 -
CAMELOT: Towards Large Language Models with Training-Free Consolidated Associative Memory
本文是LLM系列文章,针对《CAMELOT: Towards Large Language Models with Training-Free Consolidated Associative Memory》的翻译。CAMELOT:面向具有训练自由整合联想记忆的大型语言模型摘要1 引言2 相关工作3 关联内存(AM)启用的LLM4 实验5 讨论6 讨论摘要由于高内存和运行时成本,大型语言模型(LLM)难以处理长输入序列。内存增强模型已成为解决这一问题的一个很有前途的解决方案,但当前的方法受到内存容量有原创 2024-04-25 10:07:55 · 45 阅读 · 0 评论 -
MoELoRA: Contrastive Learning Guided Mixture of Experts on Parameter-Efficient Fine-Tuning for LLMs
为了增强大型语言模型(LLM)对下游任务的适应性,通常需要进行微调。尽管如此,更新数十亿个参数的过程需要大量的计算资源和训练时间,这对大规模模型在各种场景中的广泛应用构成了重大障碍。为了解决这个问题,参数有效微调(PEFT)已成为最近研究的一个突出范式。然而,当前采用有限全局参数集的PEFT方法(如LoRA,它将低秩近似矩阵添加到所有权重)在灵活组合下游任务中的不同计算模块方面面临挑战。在这项工作中,我们介绍了一种新的PEFT方法:MoELoRA。原创 2024-04-25 09:33:56 · 239 阅读 · 0 评论 -
MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
Transformers的二次复杂性和弱长度外推限制了它们扩展到长序列的能力,尽管存在线性注意力和状态空间模型等次二次解,但它们在预训练效率和下游任务准确性方面的经验表现不如Transformers。我们介绍了MEGALODON,一种用于无限上下文长度的高效序列建模的神经架构。MEGALODON继承了MEGA(带门控注意力的指数移动平均)的架构,并进一步引入了多个技术组件来提高其性能和稳定性,包括复指数移动平均(CEMA)、时步归一化层、归一化注意力机制和带两跳残差配置的预范数。原创 2024-04-24 09:36:20 · 251 阅读 · 0 评论 -
Learning From Failure Integrating Negative Examples when Fine-tuning Large Language Models as Agents
大型语言模型(LLM)在充当代理方面取得了成功,代理通过搜索引擎等工具与环境交互。然而,LLM是为语言生成而优化的,而不是在训练或调整过程中使用工具,这限制了它们作为代理的有效性。为了解决这个问题,之前的工作首先收集了LLM和环境之间的交互轨迹,只使用成功完成任务的轨迹来微调较小的模型,这使得微调数据稀缺,获取数据既困难又昂贵。丢弃失败的轨迹也会导致数据和资源的显著浪费,并限制微调过程中可能的优化路径。在本文中,我们认为不成功的轨迹提供了有价值的见解,LLM可以通过适当的质量控制和微调策略从这些轨迹中学习。原创 2024-04-23 11:19:06 · 69 阅读 · 0 评论 -
Head-wise Shareable Attention for Large Language Models
大型语言模型(LLM)具有大量的参数,这限制了它们在边缘设备上的部署。权重共享是一种很有前途的解决方案,它鼓励权重重用,有效地减少内存使用,同时减少性能下降。然而,当前的权重共享技术主要关注像BERT这样的小规模模型,并使用粗粒度的共享规则,例如逐层共享。考虑到LLM的普遍性和共享整个层或块明显削弱了权重共享的灵活性,这就变得有限了。在本文中,我们对大型语言模型的头部可共享注意力提出了一个观点。我们进一步提出了两种高效记忆的方法,它们在注意力头之间共享参数,特别关注LLM。原创 2024-04-23 11:11:31 · 47 阅读 · 0 评论 -
LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative Tasks
LoRA采用轻量级模块为每个下游任务或领域定制大型语言模型(LLM),其中不同的学习附加模块代表不同的技能。将现有的LoRA组合起来处理新任务可以增强学习的LoRA的可重用性,特别有利于注释数据有限的任务。大多数先前关于LoRA组合的工作主要依赖于每个涉及的LoRA的任务级权重,使得不同的示例和token共享相同的LoRA权重。然而,在生成任务中,不同的token可能需要不同的管理技能。以语文数学任务为例,理解问题描述可能更多地依赖于语文LoRA,而计算部分可能更多地取决于数学LoRA。原创 2024-04-22 10:06:49 · 195 阅读 · 0 评论