
LLM Training
文章平均质量分 68
主要是LLM训练相关的paper,针对训练加速,微调等相关内容。涉及的关键词包括finetuning以及training。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Communication-Efficient Language Model Training Scales Reliably and Robustly
本文研究了通信高效的分布式训练方法DiLoCo在大规模语言模型(LLM)训练中的扩展规律。通过固定计算预算,作者分析了DiLoCo在模型规模、超参数(学习率、批量大小等)和令牌预算下的行为,并提出了扩展定律。实验表明,DiLoCo在模型规模增大时表现出可预测性和鲁棒性,其最优批量大小更大,通信成本更低,且在某些情况下比传统数据并行方法(Data-Parallel)性能更优。通信高效的语言模型训练可靠且鲁棒地扩展:DiLoCo的扩展定律。原创 2025-03-31 10:22:44 · 138 阅读 · 0 评论 -
Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining
大语言模型(LLMs)在各种任务中展现出令人瞩目的能力,然而,要有效部署这些模型,需要对超参数进行仔细优化。通过对多种配置进行广泛的网格搜索实证研究,我们发现了适用于这些超参数的通用缩放定律:最优学习率与模型参数和数据规模均呈幂律关系,而最优批量大小主要随数据规模变化。我们的分析表明,在固定模型和数据规模条件下,超参数的优化景观是凸的。这种凸性意味着存在一个最优超参数平台。我们为社区贡献了一种通用的、即插即用的最优超参数工具。在测试集上,其估计值与通过穷举搜索得到的全局最优LLM性能仅相差0.09%。原创 2025-03-21 09:30:00 · 146 阅读 · 0 评论 -
Transformers without Normalization
归一化层在现代神经网络中无处不在,长期以来一直被认为是必不可少的。这项工作表明,使用一种非常简单的技术,不含归一化层的Transformer也能达到相同甚至更好的性能。我们引入动态双曲正切(Dynamic Tanh, DyT),这是一种逐元素操作,即DyTxtanhαxDyTxtanhαx,可直接替代Transformer中的归一化层。DyT的灵感来自于观察到Transformer中的层归一化通常会产生类似双曲正切的S形输入 - 输出映射。原创 2025-03-21 08:30:00 · 69 阅读 · 0 评论 -
Large Language Models as Attribution Regularizers for Efficient Model Training
大语言模型(LLMs)在多个领域展现出卓越性能。然而,如何有效利用其丰富知识来训练下游较小模型仍是一个有待解决的挑战,尤其在表格数据学习领域,由于可解释性和效率因素,更倾向于使用简单模型。在本文中,我们提出一种新颖且简单的方法,将大语言模型生成的全局任务特征归因融入到较小网络的训练过程中。具体而言,我们提出了一个归因匹配正则化项,使较小模型的训练动态与大语言模型提供的见解保持一致。通过这种方式,我们的方法在少样本学习场景中表现出色。原创 2025-03-19 09:30:00 · 9 阅读 · 0 评论 -
Sliding Window Attention Training for Efficient Large Language Models
基于Transformer的大语言模型(LLMs)最近取得的进展显示出其在各种任务上的卓越能力。然而,它们在处理长文档时,计算复杂度与序列长度呈二次方关系,这仍然是一个重大瓶颈。因此,人们提出了许多方法,如稀疏注意力机制和状态空间模型,以提高大语言模型在处理长序列时的效率。虽然这些方法提高了效率,但它们往往需要复杂的架构和并行训练技术。这就需要一种简单而有效的模型,同时保留基本的Transformer架构。原创 2025-03-08 21:37:10 · 101 阅读 · 0 评论 -
HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid
低秩自适应(LoRA)是一种主流的参数高效微调方法,用于使大语言模型(LLMs)适应下游任务。在本文中,我们首次提出将LoRA微调后的大语言模型部署在混合内存计算(CIM)架构上(即,预训练权重存储在RRAM中,LoRA存储在SRAM中)。为了解决RRAM固有噪声导致的性能下降问题,我们设计了一种新颖的硬件感知低秩自适应(HaLoRA)方法,旨在通过对齐理想和噪声条件下的训练目标,训练出既稳健又准确的LoRA分支。原创 2025-03-08 08:30:00 · 77 阅读 · 0 评论 -
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
监督微调(SFT)和强化学习(RL)是基础模型训练后广泛使用的技术。然而,它们在增强模型泛化方面各自的作用尚不清楚。本文研究了SFT和RL在泛化和记忆方面的比较效果,重点研究了基于文本和视觉环境。我们介绍了算术推理纸牌游戏GeneralPoints,并考虑了现实世界的导航环境V-IRL,以评估用SFT和RL训练的模型如何泛化到文本和视觉领域中看不见的变体。我们发现,强化学习,特别是在基于结果的奖励训练中,在基于规则的文本和视觉环境中都具有普遍性。原创 2025-02-28 10:00:00 · 135 阅读 · 0 评论 -
TEST-TIME TRAINING ON NEAREST NEIGHBORS FOR LARGE LANGUAGE MODELS
最近的许多工作通过将检索到的数据添加到输入上下文来增强语言模型的检索功能。要使此方法成功,必须在训练和测试时添加检索到的数据。此外,随着输入长度随检索数据的大小线性增长,现代 Transformer 的计算和内存成本呈二次方增长。为了避免这些复杂性,我们只需在测试时使用其标准训练设置,根据检索到的数据对模型进行微调。我们基于 Pile 数据集的文本嵌入构建了一个大规模分布式索引。对于每个测试输入,我们的系统会检索其邻居并根据其文本微调模型。原创 2024-10-11 09:00:00 · 178 阅读 · 0 评论 -
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training
大型语言模型(LLM)在各种复杂任务中的巨大成功在很大程度上依赖于其巨大的规模,由于其大量的内存消耗,这给模型部署带来了挑战。最近,许多研究尝试使用一次性剪枝方法来压缩 LLM。然而,这些方法在复杂的语言理解任务上通常会出现相当大的性能下降,这使人们对LLM中剪枝的可行性产生了质疑。为了解决这个问题,我们提出了一种通过再训练对半结构化稀疏模型进行修剪的管道,称为自适应稀疏训练器(AST)。原创 2024-09-23 09:39:36 · 394 阅读 · 0 评论 -
TRAINING-FREE ACTIVATION SPARSITY IN LARGE LANGUAGE MODELS
激活稀疏性可以通过减少前向传递期间矩阵乘法所需的计算和内存移动,在大型语言模型 (LLM) 中实现实际推理加速。然而,现有方法面临阻碍广泛采用的局限性。一些方法是为具有基于 ReLU 的稀疏性的旧模型量身定制的,而另一些方法则需要对多达数千亿个token进行广泛的持续预训练。本文描述了 TEAL (大模型中的无需训练激活稀疏性),这是一种简单的免训练方法,将基于幅度的激活稀疏性应用于整个模型中的隐藏状态。原创 2024-09-13 14:19:57 · 108 阅读 · 0 评论 -
CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark
大型语言模型 (LLM) 的快速发展促使创建了许多基准来评估其功能。本研究侧重于中文综合医学基准 (CMB),展示了监督微调 (SFT) 中的数据集多样性和分布如何提高 LLM 表现。值得注意的是,我们成功地训练了一个较小的基础模型,以获得与较大模型相当的分数,这表明无论模型大小如何,多样化且分布良好的数据集都可以优化性能。这项研究表明,即使是更小的模型,通过精心策划和多样化的数据集也可以达到高性能水平。通过整合广泛的指令内容,我们的方法解决了数据质量不一致等潜在问题。原创 2024-09-11 09:28:57 · 159 阅读 · 0 评论 -
Memory-Efficient LLM Training with Online Subspace Descent
最近,各种内存高效的LLM训练算法得到了广泛的应用。这些方法利用梯度的低秩结构,使用奇异值分解(SVD)得到的投影矩阵将优化器状态投影到子空间中。然而,这些算法的收敛性在很大程度上取决于其投影矩阵的更新规则。在这项工作中,我们为投影矩阵的任意更新规则提供了第一个收敛保证。这个保证通常适用于可以用哈密顿下降分析的优化器,包括最常见的优化器,如LION、Adam。受我们理论理解的启发,我们提出了在线子空间下降,这是一个新的无SVD子空间下降优化器家族。原创 2024-09-06 09:50:37 · 326 阅读 · 0 评论 -
Lucky 52: How Many Languages Are Needed to Instruction Fine-Tune Large Language Models?
为多语言下游任务微调大型语言模型需要一组不同的语言来有效地捕捉不同语言上下文的细微差别和结构。虽然具体数量因所需的范围和目标语言而异,但我们认为,语言数量、语言暴露和包含微调语言选择的相似性是需要研究的一些重要方面。通过对1到52种语言的大型多语言模型进行微调,本文回答了一个问题:多语言任务的指令微调需要多少种语言?我们研究了随着语言数量的增加,多语言指令微调模型在多语言基准上的表现,并从语言暴露和相似性的角度讨论了我们的发现。原创 2024-08-31 10:22:21 · 796 阅读 · 0 评论 -
The Fine Line: Navigating Large Language Model Pretraining with Downstreaming Capability Analysis
揭示反映最终模型性能的早期指标是大规模预训练的一个核心原则。现有的标度律证明了预训练损失和训练失败之间的幂律相关性,这是大型语言模型当前训练状态的重要指标。然而,这一原则只关注模型对训练数据的压缩特性,导致与下游任务的能力提升不一致。一些后续工作试图将缩放定律扩展到更复杂的度量(如超参数),但仍然缺乏对预训练期间各种能力之间动态差异的全面分析。为了解决上述局限性,本文对各种预训练中间检查点的模型能力进行了全面比较。原创 2024-08-26 17:16:44 · 52 阅读 · 0 评论 -
STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language
尽管大型语言模型(LLMs)已经通过提示方法证明了小样本学习的强大能力,但对于复杂的推理任务来说,监督训练仍然是必要的。由于其广泛的参数和内存消耗,已经为LLM提出了参数高效微调(PEFT)方法和内存高效微调方法。然而,大注释数据消耗问题,即数据高效微调的目标,仍未得到探索。一个明显的方法是将PEFT方法与主动学习相结合。然而,实验结果表明,这种组合并非微不足道,并会产生较差的结果。通过探针实验,这种观察可能有两个主要原因:不确定性差距和模型校准不佳。原创 2024-07-29 14:28:59 · 147 阅读 · 0 评论 -
Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models
近年来,高级智能生成内容(AIGC),特别是大型语言模型(LLMs)的发展激增。然而,对于许多下游任务,有必要使用私有数据对LLM进行微调。虽然联邦学习为LLM微调提供了一种有前景的隐私保护解决方案,但LLM的庞大规模,再加上高计算和通信需求,使得它很难应用于下游任务。更重要的是,在现实世界中,私有边缘服务器通常拥有不同的计算和网络资源,这给LLM微调带来了额外的复杂性。为了解决这些问题,我们设计并实现了一个名为FedPipe的自动化联邦管道,以最小的训练成本微调LLM,但不会增加任何推理延迟。原创 2024-07-11 17:24:10 · 138 阅读 · 0 评论 -
Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Model
参数高效微调(PEFT)方法已被广泛应用于大型语言模型(LLM)中,以改进下行任务,而无需对整个LLM进行微调。最近的研究表明,如何有效地使用PEFT来微调LLM,以对具有令人信服的表现的任务进行排名;存在一些局限性,包括针对不同文档的学习提示是固定的,对特定任务的过度拟合,以及适应能力低。在本文中,我们提出了一种用于文本重新排序的查询相关参数高效微调(Q-PEFT)方法,该方法为LLM提供了关于真实查询的见解,从而促进了从输入文档生成真实查询。原创 2024-07-11 16:12:03 · 52 阅读 · 0 评论 -
LLMTune: Accelerate Database Knob Tuning with Large Language Models
数据库Knob 调优是数据库社区中的一个关键挑战,旨在优化Knob值(即配置),以提高特定工作负载的数据库性能。现代数据库管理系统(DBMS)通常具有数百个可调Knob,每个Knob都有连续或离散的值,这对数据库管理员(DBA)推荐最佳配置提出了重大挑战。因此,已经开发了一系列基于机器学习(ML)的调整方法来自动化该配置过程。即使随着各种优化器的引入,实际应用中出现了一个新问题:这些方法通常需要大量的工作负载运行才能获得令人满意的性能,这一过程既耗时又耗费资源。原创 2024-07-04 09:54:31 · 224 阅读 · 0 评论 -
Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training
虽然大型语言模型(LLM)在不同的任务中取得了令人印象深刻的性能,但最近的研究表明,因果LLM受到了“逆转诅咒”。这是一个典型的例子,模型知道“a的父亲是B”,但无法推理“B的孩子是a”。这一限制对通用人工智能(AGI)的进步提出了挑战,因为它表明模型理解和应用双向推理的能力存在差距。在本文中,我们首先进行了实质性的评估,并确定反向诅咒的根本原因在于训练和推理阶段之间的语序不同,即因果语言模型在训练数据中预测先行词的能力较差。原创 2024-07-01 10:09:13 · 240 阅读 · 0 评论 -
Parameter-Efficient Tuning Large Language Models for Graph Representation Learning
富含文本的图在节点和边上显示了丰富的文本信息,在各种现实世界的业务应用程序中都很普遍。大型语言模型(LLM)在理解文本方面表现出了非凡的能力,这也为在富含文本的图中进行更具表现力的建模带来了潜力。尽管有这些能力,但将LLM有效地应用于图上的表示学习是一项重大挑战。最近,LLM的参数高效微调方法以最小的时间和内存消耗实现了高效的新任务泛化。受此启发,我们引入了图感知参数高效微调-GPEFT,这是一种在富含文本的图上使用LLM进行高效图表示学习的新方法。原创 2024-06-28 10:21:51 · 156 阅读 · 0 评论 -
Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories
摘要1 引言2 相关工作3 问题定义4 方法5 实验6 结论和局限性尽管在预训练和指令微调阶段,大型语言模型(LLM)的数据选择是有效的,但由于微调数据的复杂性,在专业领域的监督微调(SFT)中提高数据效率带来了重大挑战。为了弥补这一差距,我们为SFT引入了一种有效且可扩展的数据选择方法SMALLTOLARGE(S2L),该方法利用小模型的训练轨迹来指导大模型的数据选择。原创 2024-06-27 14:17:58 · 79 阅读 · 0 评论 -
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning
自大型语言模型(LLM)首次出现以来,机器学习社区已经取得了令人印象深刻的进步。然而,他们的大量内存消耗已经成为大规模训练的一个重要障碍。例如,7B模型通常需要至少60GB的GPU内存和全参数训练,这给无法访问高资源环境的研究人员带来了挑战。已经提出了诸如低秩自适应(LoRA)之类的参数有效微调技术来缓解这个问题。然而,在大多数大规模微调设置中,它们的性能没有达到全参数训练的水平,因为它们将参数搜索限制在低秩子空间。原创 2024-06-26 15:46:02 · 144 阅读 · 0 评论 -
AdaPrompt: Adaptive Model Training for Prompt-based NLP
提示学习以其处理零样本和小样本NLP任务的能力,在社区中受到了广泛关注。其主要思想是通过将NLP下游任务映射到自然语言提示中,然后由预训练的语言模型(PLM)填充,来弥合NLP下游工作与语言建模(LM)之间的差距。然而,对于提示学习,NLP任务和预训练之间仍然存在两个显著的差距。首先,在LM预训练期间,提示信息不一定充分存在。其次,在预训练过程中,任务特定的数据不一定能很好地表示出来。我们通过提出AdaPrompt来解决这两个问题,该方法利用任务和提示特征自适应地检索外部数据,用于PLM的连续预训练。原创 2024-06-14 16:50:23 · 73 阅读 · 0 评论 -
Continual Training of Language Models for Few-Shot Learning
最近关于应用大型语言模型(LM)的工作在许多NLP应用程序中取得了令人印象深刻的性能。使用未标记的领域语料库调整或后训练LM可以为该领域中的最终任务产生更好的性能。本文提出了通过用一系列未标记的领域语料库对LM进行增量后训练来不断扩展LM的问题,以在不忘记其先前技能的情况下扩展其知识。目标是改进这些领域中的小样本末端任务学习。由此产生的系统被称为CPT(持续后训练),据我们所知,这是第一个持续后训练系统。实验结果验证了其有效性。原创 2024-06-14 15:42:20 · 95 阅读 · 0 评论 -
Dark Experience for General Continual Learning: a Strong, Simple Baseline
持续学习激发了大量的方法和评估环境;然而,它们中的大多数忽略了实际场景的属性,在实际场景中,数据流不能被塑造为一系列任务,离线训练是不可行的。我们致力于一般持续学习(GCL),即任务边界模糊,领域和类别分布逐渐或突然发生变化。我们通过将排练与知识蒸馏和规则化相结合来解决这一问题;我们的简单基线Dark Experience Replay与整个优化轨迹中采样的网络logits相匹配,从而提高了与过去的一致性。原创 2024-06-14 15:23:34 · 218 阅读 · 0 评论 -
ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models
参数有效微调(PEFT)在大语言模型时代因其有效性和效率而被广泛研究。低秩自适应(LoRA)作为一种流行且具有代表性的方法,表现出了值得称赞的性能。然而,它是用固定的内在秩来实现的,这可能不是下游任务的理想设置。认识到需要更灵活的下游任务自适应,我们将LoRA的方法扩展到一种创新的方法,我们称之为分配低秩自适应(ALoRA),该方法能够在自适应过程中对固有秩进行动态调整。首先,我们提出了一种新的方法AB-LoRA,它可以有效地估计每个LoRA秩的重要性得分。原创 2024-06-13 10:44:33 · 235 阅读 · 0 评论 -
Let’s Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model
大型语言模型(LLM)由表现出各种行为和角色的神经元组成,随着模型的扩展,这些行为和角色变得越来越多样化。最近的研究表明,并非所有神经元在不同的数据集中都是活跃的,这种稀疏性与特定任务的能力呈正相关,从而提高了模型修剪和训练效率。传统的微调方法涉及LLM的所有参数,这在计算上是昂贵的,并且可能不是必要的。相反,参数有效微调(PEFT)方法旨在最大限度地减少可训练参数的数量,但它们仍然在相对宏观的尺度上运行(例如,层级别)。原创 2024-06-01 23:54:22 · 126 阅读 · 0 评论 -
A Data-efficient Continual Learning Paradigm for Fine-tuning Large Language Models with Instructions
指令调优有效地优化了用于下游任务的大型语言模型(LLM)。由于现实应用程序中不断变化的环境,LLM需要在不发生灾难性遗忘的情况下持续进行特定任务的适应。考虑到高昂的计算成本,基于重放的连续学习(CL)方法是LLM解决遗忘问题最简单、最广泛使用的方法。然而,传统的基于重放的方法没有完全利用指令来定制重放策略。在这项工作中,我们提出了一种新的范式,称为基于指令的持续学习(InsCL)。InsCL根据Wasserstein Distance与指令计算的任务相似性,动态回放先前的数据。原创 2024-05-30 17:46:50 · 128 阅读 · 0 评论 -
Dial-insight: Fine-tuning LLMs with High-Quality Domain-Specific Data Preventing Capability Collapse
大型语言模型(LLM)的有效性在很大程度上取决于基础数据的质量,尤其是在专业领域内。为特定领域的应用程序微调LLM时,一个常见的挑战是模型泛化能力的潜在退化。为了解决这些问题,我们提出了一种分两阶段构建生产提示的方法,旨在生成高质量的数据。这种方法包括生成一系列不同的提示,这些提示涵盖了广泛的任务,并表现出丰富多样的表达方式。此外,我们引入了一个具有成本效益的多维质量评估框架,以确保生成的标签数据的完整性。利用由房地产行业的服务提供商和客户互动组成的数据集,我们证明了数据质量和模型性能之间的正相关性。原创 2024-05-28 16:32:28 · 118 阅读 · 0 评论 -
Unveiling the Generalization Power of Fine-Tuned Large Language Models
虽然大型语言模型(LLM)已经证明了非凡的多任务处理能力,但在下游特定领域的数据集上对这些模型进行微调通常是必要的,以在测试集上产生优于未进行微调的测试集的性能。然而,微调对LLM泛化能力的综合影响还没有完全理解。本文深入探讨了原始、未修改的LLM及其微调变体之间的差异。我们的主要研究集中在微调是否会影响LLM固有的泛化能力。为了详细说明这一点,我们在不同的数据集上对五种不同的语言任务进行了广泛的实验。我们的主要发现表明,对生成和分类任务进行微调的模型在推广到不同的领域和任务时表现出不同的行为。原创 2024-05-28 11:29:23 · 185 阅读 · 0 评论 -
Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language Models
指令调优有可能激发或增强大型语言模型(LLM)的特定功能。然而,实现正确的数据平衡对于防止灾难性的遗忘和任务之间的干扰至关重要。为了解决这些局限性并增强训练灵活性,我们提出了LoRA的混合(MoA)架构——一种新颖且参数有效的调整方法,用于LLM的多任务学习。在本文中,我们首先使用相应的监督语料库数据单独训练多个领域特定的LoRA模块。这些LoRA模块可以和专家混合(MoE)中的专家设计原则相一致。原创 2024-05-24 09:27:57 · 324 阅读 · 0 评论 -
Fine-Tuning Large Language Models with Sequential Instructions
大型语言模型(LLM)很难在单个查询中遵循一系列指令,因为它们可能会忽略或误解其中的一部分。这会削弱它们在复杂问题中的性能,这些问题的解决方案需要多个中间步骤,如多语言(翻译然后回答)和多模态(说明然后回答)任务。我们用LLaMA-2 70B和Mixtral-8×7B这样大的开源LLM实证验证了这一点。针对当前数据中顺序指令的稀缺性,我们提出了顺序指令调优(SIT),这是一种简单而有效的策略,可以自动增加指令调优数据,并使LLM具备执行多个顺序指令的能力。原创 2024-05-23 09:13:05 · 192 阅读 · 0 评论 -
LoRA Learns Less and Forgets Less
低秩自适应(LoRA)是一种广泛应用于大型语言模型的参数高效微调方法。LoRA通过仅将低秩扰动训练到选定的权重矩阵来节省内存。在这项工作中,我们比较了LoRA和完全微调在编程和数学两个目标领域的性能。我们同时考虑指令微调(≈100K提示响应对)和连续预训练(≈10B非结构化token)数据机制。我们的研究结果表明,在大多数情况下,LoRA的性能明显不如完全微调。尽管如此,LoRA表现出了一种理想的正则化形式:它可以更好地保持基本模型在目标域外任务上的性能。原创 2024-05-22 16:46:10 · 159 阅读 · 0 评论 -
Derivative-Free Optimization for Low-Rank Adaptation in Large Language Models
诸如LoRA之类的参数有效调整方法可以通过调整一小部分参数来实现与模型调整相当的性能。然而,仍然需要大量的计算资源,因为这个过程涉及计算梯度和在整个模型中执行反向传播。最近,人们致力于利用无导数优化方法来避免梯度的计算,并在小样本设置中展示增强的鲁棒性。在本文中,我们将低阶模块预先设置到模型的每个自注意层中,并使用两种无导数优化方法在每一层交替优化这些低阶模块。原创 2024-05-21 14:55:22 · 82 阅读 · 0 评论 -
STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language
尽管大型语言模型(LLM)已经通过提示方法展示了小样本学习的强大能力,但监督训练对于复杂的推理任务仍然是必要的。由于其广泛的参数和内存消耗,已经提出了用于LLM的参数有效微调(PEFT)方法和内存有效微调方法。然而,作为数据高效微调的目标,大量注释数据消耗的问题仍未得到探索。一个明显的方法是将PEFT方法与主动学习相结合。然而,实验结果表明,这种组合并非微不足道,并且产生较差的结果。通过探针实验,这种观测可能由两个主要原因解释:不确定性差距和模型校准差。原创 2024-05-19 21:04:54 · 108 阅读 · 0 评论 -
Online Training of Large Language Models: Learn while Chatting
大型语言模型(LLM)极大地改变了自然语言处理(NLP)领域,提供了显著的功能,并获得了广泛的使用。然而,LLM和用户之间现有的交互模式受到灵活性、定制限制或缺乏持续学习的限制。这种灵活性尤其明显,因为用户,尤其是那些没有编程技能的用户,增强或个性化模型的途径受到限制。现有框架由于计算效率低和缺乏用户友好的界面,使模型训练和部署过程进一步复杂化。原创 2024-05-17 16:53:02 · 70 阅读 · 0 评论 -
Training LLMs over Neurally Compressed Text
在本文中,我们探讨了在高度压缩的文本上训练大型语言模型(LLM)的想法。虽然标准的子词标记器将文本压缩一小部分,但神经文本压缩器可以实现更高的压缩率。如果有可能直接在神经压缩文本上训练LLM,这将在训练和服务效率方面带来优势,并更容易处理长文本跨度。实现这一目标的主要障碍是,强压缩往往会产生不太适合学习的不透明输出。特别是,我们发现通过算术编码天真地压缩的文本不容易被LLM学习。原创 2024-05-17 10:12:19 · 63 阅读 · 0 评论 -
QDyLoRA: Quantized Dynamic Low-Rank Adaptation for Efficient Large Language Model Tuning
微调大型语言模型需要巨大的GPU内存,限制了获取大型模型的选择。虽然低秩自适应技术的量化版本QLoRA显著缓解了这一问题,但找到有效的LoRA秩仍然具有挑战性。此外,QLoRA是在预定义的秩上进行训练的,因此,在不需要进一步微调步骤的情况下,不能为其较低的秩进行重新配置。本文提出了一种有效的量化动态低秩自适应方法——QDyLoRA。受Dynamic LoRA的启发,QDyLoRA能够在一组预定义的LoRA秩上有效地微调LLM。原创 2024-05-15 16:47:19 · 86 阅读 · 0 评论 -
OpenMedLM: Prompt engineering can out-perform fine-tuning in medical question-answering
背景:LLM越来越有能力完成一系列专业任务,并可用于扩大公平获得医学知识的机会。大多数医学LLM都涉及广泛的微调,利用专门的医学数据和大量的计算能力,因此成本高昂。许多表现最好的LLM都是专有的,其访问权限仅限于极少数研究小组。然而,开源(OS)模型代表了医疗LLM的一个关键增长领域,因为其性能显著提高,并且具有提供医疗保健所需透明度和合规性的内在能力。在这里,我们介绍了OpenMedLM,这是一个提示平台,可在医疗基准上为操作系统LLM提供最先进的(SOTA)性能。方法。原创 2024-05-14 09:59:25 · 340 阅读 · 0 评论 -
The Fine-Grained Complexity of Gradient Computation for Training Large Language Models
大型语言模型(LLM)在过去几年中做出了重要贡献。要训练LLM,需要交替运行“正向”计算和“反向”计算。前向计算可以看作注意力函数评估,而后向计算可以看成梯度计算。在Alman和Song之前的工作中,已经证明了在某些参数状态下,前向步骤可以在几乎线性的时间内执行,但在剩余的参数状态下没有真正的次二次时间算法,除非流行的假设SETH是假的。在这项工作中,我们对计算一层注意力网络的损失函数梯度这一看似困难的问题,以及LLM训练的整个过程,给出了几乎相同的结果。这完全体现了LLM训练每一步的细粒度复杂性。原创 2024-05-11 09:39:40 · 149 阅读 · 0 评论