LazyLLM：长上下文场景下提高LLM推理效率

最新推荐文章于 2024-09-09 09:47:53 发布

程序员小麦

最新推荐文章于 2024-09-09 09:47:53 发布

阅读量1k

点赞数 21

文章标签：人工智能架构 langchain java 数据库

本文链接：https://blog.csdn.net/maiya_yayaya/article/details/140950883

版权

LazyLLM旨在优化大型语言模型（LLM）在处理长文本语境下的推理效率。传统上，LLM的推理过程分为预填充和解码两个阶段，其中预填充阶段负责计算并存储输入提示的所有token的键值（KV）缓存，这一步骤在面对长提示时会显著增加首次生成token的时间消耗，成为效率瓶颈。LazyLLM通过动态剪枝策略解决了这一问题，它仅计算对下一个token预测至关重要的KV，并将剩余token的计算推迟到它们变得相关时。不同于一次性剪枝整个提示的静态方法，LazyLLM允许模型在不同生成步骤中灵活选取不同的上下文子集，即使这些子集在先前步骤中已被剪枝。LazyLLM能够大幅减少首次生成token的时间，同时几乎不牺牲性能。此外，该方法可以无缝集成到现有的基于Transformer的LLM中，无需任何微调，即可提升推理速度。

在这里插入图片描述

1 动态Token剪枝

推理过程分为两个阶段：预填充（Prefilling）和解码（Decoding）。预填充阶段需要计算所有提示（Prompt）token的键值（KV）缓存，这在长提示的情况下会显著增加“首次生成token时间”（Time-To-First-Token, TTFT），而成为性能瓶颈。动态token剪枝旨在选择性地计算那些对下一个token预测至关重要token的KV缓存。

方法: 采用渐进式token剪枝（Progressive Token Pruning），在预填充阶段而且在解码阶段动态选择重要token进行计算，允许模型在不同生成步骤中动态选择上下文的不同子集，战略性地在后期层中剪枝更多token，而在早期层中保留更多token，以平衡效率和性能。
实现: 在每个生成步骤中，使用注意力图确定token的重要性。具体来说，使用注意力概率来决定输入token相对于要预测的下一个token的重要性。与静态剪枝不同，动态剪枝在每个步骤优化下一个token的预测，即使某些token在先前的步骤中被剪枝过也可能再次被选中。

在这里插入图片描述

2 渐进式KV增长

传统的LLM推理过程中，预填充阶段需要计算所有输入token的KV缓存，这一步骤会显著增加生成第一个token所需的时间，成为生成过程中的瓶颈。通过分析，发现并非所有的输入token对于预测下一个token都是必要的，许多token可以被剪枝而不影响输出质量。LazyLLM采用动态token剪枝策略，只计算那些对下一个token预测重要的KV值，而“懒惰地”将剩余令牌的计算推迟到它们变得相关时。该方法允许模型在不同的生成步骤中动态地从上下文中选择不同的token子集，即使这些token在之前的步骤中被剪枝。

累积token使用率：累积token使用率定义为每个给定步骤的KV缓存大小，展示了在不同生成步骤中使用的token比例及其反向未使用的token比例。
层级敏感性：后期Transformer层相对于前期层对token剪枝更为不敏感，这意味着后期层保持更少的token也能有较好的性能。为了平衡速度和准确性，采用渐进式剪枝，早期层保留更多的token，而在后期层逐渐减少。
辅助缓存（Aux Cache）：由于每个解码步骤依赖于预填充阶段计算的KV缓存来计算注意力，当token在后续层的KV缓存中缺失时，模型无法检索其KV值。引入辅助缓存以存储被剪枝token的隐藏状态，以便在后续迭代中潜在地检索，避免了重复计算同一token，确保每个token在每个Transformer层最多计算一次，并保证LazyLLM的最坏运行时间不会慢于基线。

3 结语

文章提出了LazyLLM技术，这是一种针对长上下文场景下提高大型语言模型(LLM)推理效率的方法，它通过动态选择性计算关键token来加速预填充阶段，同时保持推理性能，无需额外的模型微调。并且，LazyLLM可以无缝集成到现有的基于Transformer的LLM中，提高推理速度。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

学习计划：

阶段1：1-2个月，建立AI大模型的基础知识体系。
阶段2：2-3个月，专注于API应用开发能力的提升。
阶段3：3-4个月，深入实践AI大模型的应用架构和私有化部署。
阶段4：4-5个月，专注于高级模型的应用和部署。

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

程序员小麦

关注

21
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
LazyLLM：长上下文场景下提高LLM推理效率

文章提出了LazyLLM技术，这是一种针对长上下文场景下提高大型语言模型(LLM)推理效率的方法，它通过动态选择性计算关键token来加速预填充阶段，同时保持推理性能，无需额外的模型微调。并且，LazyLLM可以无缝集成到现有的基于Transformer的LLM中，提高推理速度。
复制链接

扫一扫