LLM Inference
文章平均质量分 66
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Inference Acceleration for Large Language Models on CPUs
近年来,大型语言模型在各种自然语言处理(NLP)任务中表现出了卓越的性能。然而,为现实世界的应用程序部署这些模型通常需要高效的推理解决方案来处理计算需求。本文探讨了如何利用CPU加速大型语言模型的推理。具体来说,我们引入了一种并行方法,通过1)利用现代CPU架构的并行处理能力,2)对推理请求进行批处理来提高吞吐量。我们的评估显示,加速推理引擎每秒生成的token提高了18-22x。序列越长,模型越大,提高幅度越大。原创 2024-10-07 10:00:00 · 321 阅读 · 0 评论 -
Explicit Inductive Inference using Large Language Models
据报道,大型语言模型 (LLM) 在推理任务上存在不良证明偏差:当被要求预测前提 P 是否包含假设 H 时,LLM 倾向于使用脱离上下文的假设 H,而不是考虑 P 所包含的 H 的条件真实性。H 作为脆弱代理的真值标签。在本文中,我们提出了一种利用这种偏差进行显式归纳推理的管道。我们的管道使用LLM将前提转换为一组经过验证的替代方案,然后汇总派生的新蕴涵查询的答案以支持原始推理预测。在定向谓词蕴涵基准上,我们证明,通过应用这个简单的管道,我们可以提高LLM在推理方面的整体性能,并大大减轻其证明偏差的影响。原创 2024-09-26 10:02:47 · 256 阅读 · 0 评论 -
Break the Sequential Dependency of LLM Inference Using LOOKAHEAD DECODING
大型语言模型(LLM)的自回归解码是内存带宽受限的,导致高延迟和现代加速器并行处理能力的严重浪费。现有的加速LLM解码的方法通常需要一个草稿模型(例如推测解码),这很难获得,也无法推广。本文介绍了LOOKAHEAD DECODING,这是一种精确的并行解码算法,可以加速LLM解码,而不需要辅助模型或数据存储。它允许按步骤交易日志(FLOP)来减少总解码步骤的数量,在单个或多个现代加速器上更具并行性,并且与并发内存高效注意力(例如FlashAttention)兼容。原创 2024-09-23 10:39:25 · 135 阅读 · 0 评论 -
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
从强语言模型(LM)中训练高质量的合成数据是提高LM推理性能的常见策略。在这项工作中,我们重新审视了这种策略在固定推理预算(例如FLOP)下是否是计算最优的。为此,我们研究了使用更强但更昂贵的(SE)模型与较弱但更便宜的(WC)模型生成合成数据之间的权衡。我们评估了三个关键指标的生成数据:覆盖率、多样性和假阳性率,并表明来自WC模型的数据可能具有更高的覆盖率和多样性,但也表现出更高的假阳性率。原创 2024-09-20 10:37:15 · 56 阅读 · 0 评论 -
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
使LLM能够通过使用更多的测试时间计算来提高其输出,是构建可以在开放式自然语言上运行的一般自我改进代理的关键一步。在本文中,我们研究了LLM中推理时间计算的缩放,重点回答了一个问题:如果允许LLM使用固定但非微不足道的推理时间计算量,它在具有挑战性的提示下能提高多少性能?回答这个问题不仅对LLM的可实现性能有影响,而且对LLM预训练的未来以及如何权衡推理时间和预训练计算也有影响。尽管它很重要,但很少有研究试图了解各种测试时间推理方法的缩放行为。此外,目前的工作在很大程度上为其中一些策略提供了负面结果。原创 2024-09-20 10:16:46 · 406 阅读 · 0 评论 -
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
扩展用于训练语言模型的计算量极大地提高了它们的能力。然而,当涉及到推理时,我们通常会将计算量限制为每个问题只能尝试一次。在这里,我们通过增加生成的样本数量来探索推理计算作为缩放的另一个轴。在多个任务和模型中,我们观察到覆盖率——任何尝试解决的问题的比例——随着样本数量的增加而增加,超过四个数量级。在编码和形式证明等领域,所有答案都可以自动验证,覆盖率的增加直接转化为性能的提高。原创 2024-09-20 09:55:59 · 305 阅读 · 0 评论 -
An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
大型语言模型(LLM)在模型大小和计算预算方面的最佳训练配置已经得到了广泛的研究。但是,如何在推理过程中优化配置LLM还没有得到足够深入的探索。我们研究计算最优推理:设计模型和推理策略,以最佳地权衡额外的推理时间计算以提高性能。作为理解和设计计算最优推理方法的第一步,我们评估了贪婪搜索、多数投票、最佳N、加权投票等多种推理策略及其变体在两种不同的树搜索算法上的有效性和计算效率,涉及不同的模型大小和计算预算。我们发现,具有新颖树搜索算法的较小语言模型通常可以实现帕累托最优权衡。原创 2024-09-19 16:40:59 · 171 阅读 · 0 评论 -
Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models
近几个月来,对 LLM 的推理需求猛增,由于注意力层的二次输入长度复杂性,为低延迟的模型提供服务仍然具有挑战性。在这项工作中,我们研究了在推理时丢弃 MLP 和注意力层对 Llama-v2 模型性能的影响。我们发现,丢弃 dreeper attention 层只会略微降低性能,但在丢弃整个层的同时可以带来最佳的加速。例如,在 13B Llama2 模型中删除 33% 的注意力层会导致平均性能比 OpenLLM 基准测试下降 1.8%。原创 2024-09-12 16:34:34 · 42 阅读 · 0 评论 -
DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving
DistServe 通过解聚预填充和解码计算来提高大型语言模型 (LLM) 服务的性能。现有的 LLM 服务系统将这两个阶段放在一起,并在所有用户和请求中批量处理预填充和解码的计算。我们发现,这种策略不仅会导致强大的预填充-解码干扰,而且还耦合了两个阶段的资源分配和并行计划。LLM 应用程序通常强调每个阶段的单独延迟:预填充阶段的首次token时间 (TTFT) 和解码阶段每个请求的每个输出token的时间 (TPOT)。原创 2024-09-12 09:44:03 · 152 阅读 · 0 评论 -
Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy
最近,动态计算方法通过精心设计的启发式方法或其他预测器跳过了多层计算,从而显示出大型语言模型 (LLM) 的显著加速。然而,在现有方法的解码过程中,不同的样本被赋予不同的计算预算,无法保证稳定精确的加速效果。此外,现有方法通常会跳过层的底部或顶部的多个连续层,从而导致模型的分层表示发生剧烈变化,从而导致性能退化。因此,我们提出了一种 Unified Layer Skipping 策略,仅根据目标加速比选择要跳过计算的层数,然后以平衡的方式跳过相应的中间层计算数量。原创 2024-09-12 09:22:15 · 107 阅读 · 0 评论 -
SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills
大型语言模型(LLM)推理包括两个不同的阶段 - 预填充阶段(处理输入提示)和解码阶段(自动回归生成输出token)。虽然预填充阶段有效地使小批量的 GPU 计算饱和,但解码阶段会导致计算利用率较低,因为它每个请求一次生成一个token。使用流水线并行时,不同的预填充和解码时间也会导致微批处理之间的不平衡,从而导致气泡进一步降低效率。我们推出 SARATHI 来应对这些挑战。原创 2024-09-11 17:42:03 · 537 阅读 · 2 评论 -
A Comprehensive Survey of Accelerated Generation Techniques in Large Language Models
尽管在大型语言模型 (LLM) 中加速文本生成对于高效生成内容至关重要,但此过程的连续性通常会导致高推理延迟,从而给实时应用程序带来挑战。已经提出和开发了各种技术来应对这些挑战并提高效率。本文对自回归语言模型中的加速生成技术进行了全面调查,旨在了解最先进的方法及其应用。我们将这些技术分为几个关键领域:推测解码、早期退出机制和非自回归方法。我们讨论了每个类别的基本原则、优势、局限性和最新进展。通过这项调查,我们旨在提供对 LLM 技术现状的见解,并为自然语言处理这一关键领域的未来研究方向提供指导。原创 2024-09-08 11:19:22 · 113 阅读 · 0 评论 -
Efficient LLM Scheduling by Learning to Rank
在大型语言模型(LLM)推理中,LLM请求的输出长度通常被视为先验未知。因此,大多数LLM服务系统采用简单的先到先服务(FCFS)调度策略,导致前端(HOL)阻塞,降低吞吐量和服务质量。在本文中,我们重新审视了这一假设——我们表明,尽管预测每个请求的确切生成长度是不可行的,但通过学习排名,可以预测一批请求中输出长度的相对排名。排名信息为安排请求提供了宝贵的指导。基于这一认识,我们开发了一种用于LLM推理和服务的新型调度器,该调度器可以比现有方法更好地近似最短作业优先(SJF)调度。原创 2024-09-06 09:37:13 · 458 阅读 · 0 评论 -
Writing in the Margins: Better Inference Pattern for Long Context Retrieval
本文介绍了一种新的大型语言模型推理模式——边缘写作(WiM),旨在优化面向检索任务中长输入序列的处理。这种方法利用键值缓存的分块预填充来执行分段推理,从而能够高效地处理广泛的上下文,并生成和分类引导模型执行特定任务的中间信息(“边距”)。这种方法略微增加了计算开销,同时显著提高了现成模型的性能,而不需要进行微调。具体来说,我们观察到,WiM在推理技能(HotpotQA、MultiHop RAG)的准确性方面平均提高了7.5%,在聚合任务(CWE)的F1得分方面提高了30.0%以上。原创 2024-09-06 09:28:05 · 182 阅读 · 0 评论 -
A Survey on Efficient Inference for Large Language Models
大型语言模型(LLMs)因其在各种任务中的出色表现而引起了广泛关注。然而,LLM推理的大量计算和内存要求给资源受限场景中的部署带来了挑战。该领域的工作一直致力于开发旨在提高LLM推理效率的技术。本文对现有关于有效LLM推理的文献进行了全面的综述。我们首先分析了LLM推理效率低下的主要原因,即模型大小大、二次复杂度注意操作和自回归解码方法。然后,我们引入了一个全面的分类法,将当前的文献分为数据级、模型级和系统级优化。此外,本文还对关键子领域内的代表性方法进行了比较实验,以提供定量见解。原创 2024-08-22 09:57:04 · 478 阅读 · 0 评论 -
New Evaluation, Library, and Analysis of Step-by-Step Reasoning with Large Language Models
生成准确的逐步推理对于大型语言模型(LLM)解决复杂问题、增强鲁棒性和可解释性至关重要。尽管关于开发高级推理方法的研究层出不穷,但系统分析生成推理链中的各种LLM和推理策略仍然是一个重大挑战。困难源于缺乏两个关键要素:(1)用于评估不同任务上生成的推理链的自动方法,以及(2)用于系统比较的不同推理方法的统一形式和实现。本文旨在填补这一空白:(1)我们引入了AutoRace用于全自动推理链评估。现有的指标依赖于昂贵的人工注释或预定义的LLM提示,无法适应不同的任务。原创 2024-07-28 14:33:05 · 189 阅读 · 0 评论 -
MULTI-TASK INFERENCE: Can Large Language Models Follow Multiple Instructions at Once?
大型语言模型(LLM)通常被提示在每次推理调用中遵循一条指令。在这项工作中,我们分析LLM是否也具有同时处理多个指令的能力,称为多任务推理。为此,我们引入了MTI BENCH(多任务推理基准),这是一个全面的评估基准,包括25个任务中的5000个实例。MTI BENCH中的每个任务都包含2到3个子任务。正如预期的那样,我们首先证明了多任务推理平均将总推理时间减少了×1.46倍,因为它不需要多次推理调用。原创 2024-07-09 15:58:26 · 425 阅读 · 0 评论 -
ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching
Transformer体系结构具有显著的高级自然语言处理(NLP),并且是开发大型语言模型(LLM)(如LLaMA和OPT)的基础,这些模型已经主导了广泛的NLP任务。尽管LLM具有卓越的准确性,但在实际推理中,LLM在计算和内存密集型方面面临着独特的挑战。由于LLM推理的自回归特性,Transformers中注意力层的KV缓存可以通过用线性复杂度存储器访问代替二次复杂度计算来有效地加速LLM推理。然而,随着对处理较长序列的需求增长,这种方法需要增加内存。原创 2024-06-28 17:20:04 · 222 阅读 · 0 评论 -
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs
大语言模型(LLM)广泛应用于智能助手、文本摘要、翻译和手机多模态等任务。然而,当前用于设备上LLM部署的方法保持较慢的推理速度,这导致较差的用户体验。为了促进LLM在设备GPU上的高效部署,我们提出了四种优化技术:(a)支持动态形状模型推理的基于符号表达的方法;(b) 操作员优化和执行优先级设置,以提高推理速度并减少电话滞后;(c) 称为E0M4的FP4量化方法,以减少去量化开销;(d) 一种基于子张量的技术,以消除在LLM推断之后复制KV缓存的需要。原创 2024-06-21 17:36:48 · 55 阅读 · 0 评论 -
Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding
本研究旨在加快具有数十亿参数的大型语言模型(LLM)的推理速度。我们提出了一种用于实现LLM无损加速的智能并行自动校正dEcoding(SPACE)方法。通过集成半自动推理和推测解码功能,SPACE独特地使自回归LLM能够并行化token生成和验证。这是通过专门的半自回归监督微调过程实现的,该过程使现有LLM具备同时预测多个token的能力。此外,自校正解码算法有助于在单个模型调用内同时生成和验证token序列。原创 2024-06-05 09:21:25 · 144 阅读 · 0 评论 -
Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization
摘要1 引言2 相关工作3 我们的方法4 实验5 结论这项工作的重点是基于查询的会议摘要任务,其中生成上下文摘要(会议记录)以响应特定查询。在此任务中使用大型语言模型(LLM)时,即使上下文保持不变,每个新查询也需要对LLM推理端点/API进行新调用。然而,对LLM推理端点的重复调用会显著增加在生产中使用它们的成本,使LLM对于许多真实世界的用例来说不切实际。为了解决这个问题,在本文中,我们研究了在单个提示中组合对相同输入上下文的查询以最小化重复调用是否可以成功地用于会议摘要。原创 2024-05-16 14:49:28 · 43 阅读 · 0 评论 -
Model Compression and Efficient Inference for Large Language Models: A Survey
基于Transformer的大型语言模型已经取得了巨大的成功。然而,在推理过程中产生的大量内存和计算成本使得在资源受限的设备上部署大型模型具有挑战性。在本文中,我们从算法的角度研究了大型语言模型的压缩和高效推理方法。关于分类法,与较小的模型类似,大型语言模型的压缩和加速算法仍然可以分为量化、修剪、蒸馏、紧凑架构设计和动态网络。然而,与较小的模型相比,大型语言模型有两个突出的特点:(1)大多数压缩算法需要在压缩后对模型进行微调甚至重新训练。大型模型最显著的方面是与模型微调或训练相关的非常高的成本。原创 2024-04-05 13:55:14 · 152 阅读 · 0 评论 -
A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens
大型语言模型(LLM)已经在各种任务中展示了非凡的能力。然而,它们的广泛应用受到资源密集型解码过程的阻碍。为了应对这一挑战,当前的方法已经结合了额外的解码头,以实现对多个后续token的并行预测,从而实现推理加速。然而,这些解码头的精度达不到自回归解码方法。鉴于这些局限性,我们提出了Chimera,这是一个专门为推测采样设计的新颖框架。在这个框架内,我们引入了一个轻量级的草稿模型,该模型有效地利用先前生成的token来预测后续单词。为了确保准确性和效率,我们在轻量级草稿模型中提出了两种策略。原创 2024-03-14 19:47:09 · 56 阅读 · 0 评论 -
SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models
随着云平台上托管的大型语言模型越来越多地用于提供推理服务,隐私问题也在升级,尤其是涉及投资计划和银行账户详细信息等敏感数据。安全多方计算(SMPC)是一种很有前途的保护推理数据和模型参数隐私的解决方案。然而,SMPC在大型语言模型的隐私保护推理(PPI)中的应用,特别是那些基于Transformer架构的模型,往往会导致性能显著下降。这在很大程度上是由于Transformer架构中的大量非线性操作,这些操作不太适合SMPC,并且难以有效规避或优化。原创 2024-03-06 10:56:06 · 62 阅读 · 0 评论 -
K-Level Reasoning with Large Language Models
虽然大型语言模型(LLM)已经证明了它们在复杂推理任务中的熟练程度,但它们在动态、交互式和竞争场景中的性能——如商业战略和股市分析——仍然没有得到充分的探索。为了弥补这一差距,我们正式探索了LLM在快速发展的环境中用于决策的动态推理能力。我们介绍了两个基于博弈论的试点挑战,反映了现实世界动态决策的复杂性。这些挑战是明确定义的,能够对LLM的动态推理能力进行清晰、可控和精确的评估。通过广泛的实验,我们发现现有的推理方法在需要k级思维的动态环境中往往会出现问题——这是以前工作中没有解决的关键概念。原创 2024-03-08 14:13:29 · 105 阅读 · 0 评论
分享