![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
LLM Inference
文章平均质量分 66
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
MULTI-TASK INFERENCE: Can Large Language Models Follow Multiple Instructions at Once?
大型语言模型(LLM)通常被提示在每次推理调用中遵循一条指令。在这项工作中,我们分析LLM是否也具有同时处理多个指令的能力,称为多任务推理。为此,我们引入了MTI BENCH(多任务推理基准),这是一个全面的评估基准,包括25个任务中的5000个实例。MTI BENCH中的每个任务都包含2到3个子任务。正如预期的那样,我们首先证明了多任务推理平均将总推理时间减少了×1.46倍,因为它不需要多次推理调用。原创 2024-07-09 15:58:26 · 372 阅读 · 0 评论 -
ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching
Transformer体系结构具有显著的高级自然语言处理(NLP),并且是开发大型语言模型(LLM)(如LLaMA和OPT)的基础,这些模型已经主导了广泛的NLP任务。尽管LLM具有卓越的准确性,但在实际推理中,LLM在计算和内存密集型方面面临着独特的挑战。由于LLM推理的自回归特性,Transformers中注意力层的KV缓存可以通过用线性复杂度存储器访问代替二次复杂度计算来有效地加速LLM推理。然而,随着对处理较长序列的需求增长,这种方法需要增加内存。原创 2024-06-28 17:20:04 · 145 阅读 · 0 评论 -
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs
大语言模型(LLM)广泛应用于智能助手、文本摘要、翻译和手机多模态等任务。然而,当前用于设备上LLM部署的方法保持较慢的推理速度,这导致较差的用户体验。为了促进LLM在设备GPU上的高效部署,我们提出了四种优化技术:(a)支持动态形状模型推理的基于符号表达的方法;(b) 操作员优化和执行优先级设置,以提高推理速度并减少电话滞后;(c) 称为E0M4的FP4量化方法,以减少去量化开销;(d) 一种基于子张量的技术,以消除在LLM推断之后复制KV缓存的需要。原创 2024-06-21 17:36:48 · 17 阅读 · 0 评论 -
Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding
本研究旨在加快具有数十亿参数的大型语言模型(LLM)的推理速度。我们提出了一种用于实现LLM无损加速的智能并行自动校正dEcoding(SPACE)方法。通过集成半自动推理和推测解码功能,SPACE独特地使自回归LLM能够并行化token生成和验证。这是通过专门的半自回归监督微调过程实现的,该过程使现有LLM具备同时预测多个token的能力。此外,自校正解码算法有助于在单个模型调用内同时生成和验证token序列。原创 2024-06-05 09:21:25 · 92 阅读 · 0 评论 -
Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization
摘要1 引言2 相关工作3 我们的方法4 实验5 结论这项工作的重点是基于查询的会议摘要任务,其中生成上下文摘要(会议记录)以响应特定查询。在此任务中使用大型语言模型(LLM)时,即使上下文保持不变,每个新查询也需要对LLM推理端点/API进行新调用。然而,对LLM推理端点的重复调用会显著增加在生产中使用它们的成本,使LLM对于许多真实世界的用例来说不切实际。为了解决这个问题,在本文中,我们研究了在单个提示中组合对相同输入上下文的查询以最小化重复调用是否可以成功地用于会议摘要。原创 2024-05-16 14:49:28 · 18 阅读 · 0 评论 -
Model Compression and Efficient Inference for Large Language Models: A Survey
基于Transformer的大型语言模型已经取得了巨大的成功。然而,在推理过程中产生的大量内存和计算成本使得在资源受限的设备上部署大型模型具有挑战性。在本文中,我们从算法的角度研究了大型语言模型的压缩和高效推理方法。关于分类法,与较小的模型类似,大型语言模型的压缩和加速算法仍然可以分为量化、修剪、蒸馏、紧凑架构设计和动态网络。然而,与较小的模型相比,大型语言模型有两个突出的特点:(1)大多数压缩算法需要在压缩后对模型进行微调甚至重新训练。大型模型最显著的方面是与模型微调或训练相关的非常高的成本。原创 2024-04-05 13:55:14 · 56 阅读 · 0 评论 -
A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens
大型语言模型(LLM)已经在各种任务中展示了非凡的能力。然而,它们的广泛应用受到资源密集型解码过程的阻碍。为了应对这一挑战,当前的方法已经结合了额外的解码头,以实现对多个后续token的并行预测,从而实现推理加速。然而,这些解码头的精度达不到自回归解码方法。鉴于这些局限性,我们提出了Chimera,这是一个专门为推测采样设计的新颖框架。在这个框架内,我们引入了一个轻量级的草稿模型,该模型有效地利用先前生成的token来预测后续单词。为了确保准确性和效率,我们在轻量级草稿模型中提出了两种策略。原创 2024-03-14 19:47:09 · 30 阅读 · 0 评论 -
SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models
随着云平台上托管的大型语言模型越来越多地用于提供推理服务,隐私问题也在升级,尤其是涉及投资计划和银行账户详细信息等敏感数据。安全多方计算(SMPC)是一种很有前途的保护推理数据和模型参数隐私的解决方案。然而,SMPC在大型语言模型的隐私保护推理(PPI)中的应用,特别是那些基于Transformer架构的模型,往往会导致性能显著下降。这在很大程度上是由于Transformer架构中的大量非线性操作,这些操作不太适合SMPC,并且难以有效规避或优化。原创 2024-03-06 10:56:06 · 28 阅读 · 0 评论 -
K-Level Reasoning with Large Language Models
虽然大型语言模型(LLM)已经证明了它们在复杂推理任务中的熟练程度,但它们在动态、交互式和竞争场景中的性能——如商业战略和股市分析——仍然没有得到充分的探索。为了弥补这一差距,我们正式探索了LLM在快速发展的环境中用于决策的动态推理能力。我们介绍了两个基于博弈论的试点挑战,反映了现实世界动态决策的复杂性。这些挑战是明确定义的,能够对LLM的动态推理能力进行清晰、可控和精确的评估。通过广泛的实验,我们发现现有的推理方法在需要k级思维的动态环境中往往会出现问题——这是以前工作中没有解决的关键概念。原创 2024-03-08 14:13:29 · 45 阅读 · 0 评论