[Blog 2023] Flash-Decoding for long-context inference

Introduction

  • 作者提出 Flash-Decoding,通过在 FlashAttention 的基础上增加 key/values sequence length 维度上的并行,有效提升了 FlashAttention 在 LLM 长序列推理场景下的 GPU 利用率

Method

  • Motivation. decoding 阶段由于 query length 为 1,因此主要的访存瓶颈在于加载 KV cache 而非 prefill 阶段的加载 attetion matrix,标准 attention 实现和 FlashAttention 的访存开销均为 O ( N d ) O(Nd) O(Nd). 并且 FlashAttention 只在 bacth size、number of heads 和 query sequence length 维度上做了并行,对于 decoding 阶段,如果序列长度很长,那么通常 bacth size 也会比较小,FlashAttention 的并行度就很低,GPU 利用率也会很低
    在这里插入图片描述
  • Flash-Decoding. Flash-Decoding 在 keys/values sequance length 上也做了并行。首先将 keys/values 划分成若干 chunks,然后调用多个 thread blocks 并行计算 query 和每个 chunk 的 attetion 结果,kernel 还是采用 FlashAttention,并且还要为每个 chunk 记录 log-sum-exp of the attention values. 这样做可以把加载 KV cache 的任务分配到不同 thread blocks 上,提升 HBM 带宽利用率,从而提升 GPU 利用率. 由于不同 thread blocks 间无法直接通信,因此最后还需要将中间结果写回 HBM,并调用一个单独的 kernel 对所有 chunks 的计算结果做 reduce,也就是根据 log-sum-exp 对所有 chunks 的结果做加权和得到最终的计算结果
    在这里插入图片描述

Experiments

  • Benchmarks on CodeLlama 34B.
    在这里插入图片描述
  • Component-level micro-benchmarks.
    在这里插入图片描述

References

内容概要:本文档《DeepSeek本地部署教程(非ollama)》详细介绍了DeepSeek大语言模型的本地部署流程。首先明确了环境要求,包括Python 3.8以上版本、CUDA 11.7(针对GPU用户)、至少16GB RAM以及推荐的操作系统。接着阐述了安装步骤,如克隆代码仓库、创建虚拟环境、安装依赖等。随后讲解了模型下载方式,支持从Hugging Face平台下载不同版本的DeepSeek模型,如DeepSeek-7B、DeepSeek-67B和DeepSeek-Coder。文档还提供了两种运行模型的方式:命令行运行和使用API服务。此外,针对常见的问题,如CUDA相关错误、内存不足和模型加载失败等,给出了详细的解决方案。最后,文档提出了性能优化建议,如使用量化技术减少内存占用、启用CUDA优化等,并强调了安全注意事项,包括定期更新模型和依赖包、注意API访问权限控制等方面。; 适合人群:对大语言模型感兴趣的研究人员、开发者,特别是希望在本地环境中部署和测试DeepSeek模型的技术人员。; 使用场景及目标:①帮助用户在本地环境中成功部署DeepSeek大语言模型;②解决部署过程中可能遇到的问题,如环境配置、模型下载和运行时的常见错误;③提供性能优化建议,确保模型在不同硬件条件下的最佳表现;④指导用户进行安全配置,保障模型和数据的安全性。; 阅读建议:在阅读本教程时,建议按照文档的步骤顺序逐步操作,同时结合实际情况调整环境配置和参数设置。对于遇到的问题,可以参考常见问题解决部分提供的解决方案。此外,性能优化部分的内容有助于提高模型的运行效率,值得深入研究。
Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目),该项目是个人大作业项目,答辩评审分达到98分,代码都经过调试测试,确保可以运行!欢迎下载使用,可用于小白学习、进阶。该资源主要针对计算机、通信、人工智能、自动化等相关专业的学生、老师或从业者下载使用,亦可作为期末课程设计、课程大作业、毕业设计等。项目整体具有较高的学习借鉴价值!基础能力强的可以在此基础上修改调整,以实现不同的功能。 Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于SpringCloud架构的简易版个人网上银行系统源码(高分项目)Java基于S
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值