进阶岛--LMDeploy 量化部署

What?

LMDeploy

LMDeploy 由 MMDeployMMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。
这个强大的工具箱提供以下核心功能:

  • 高效的推理:LMDeploy 开发了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍

  • 可靠的量化:LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。

  • 便捷的服务:通过请求分发服务,LMDeploy 支持多模型在多机、多卡上的推理服务。

  • 有状态推理:通过缓存多轮对话过程中 attention 的 k/v,记住对话历史,从而避免重复处理历史会话。显著提升长文本多轮对话场景中的效率。

  • 卓越的兼容性: LMDeploy 支持 KV Cache 量化, AWQAutomatic Prefix Caching 同时使用。

量化

why?

随着模型变得越来越大,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。LMDeploy 提供了权重量化和 k/v cache两种策略。

Per-Head Per-Token 非对称量化

非对称量化是一种量化技术,用于将浮点数转换为整数,以减少模型的大小和计算复杂度。在大模型中,特别是在自然语言处理(NLP)领域,这种技术可以显著减少模型的存储和计算需求。

非对称量化

非对称量化通常涉及以下步骤

  1. 确定量化范围:确定需要量化的浮点数的范围。
  2. 选择量化参数:选择量化步长(scale)和零点(zero-point)。
  3. 量化:将浮点数映射到整数域。
  4. 反量化:在需要时将整数映射回浮点数域。
Per-Head Per-Token的非对称量化

在Transformer模型中,特别是BERT、GPT等大模型中,每个注意力头(attention head)和每个token都需要进行量化。Per-Head Per-Token的非对称量化意味着为每个注意力头和每个token分别计算量化参数。

  • 步骤

    1. 为每个注意力头计算量化参数:每个注意力头的权重和激活值可能具有不同的分布,因此需要为每个头计算独立的量化参数。
    2. 为每个token计算量化参数:每个token的激活值也可能具有不同的分布,因此需要为每个token计算独立的量化参数。
  • 优点

    • 更高的精度:由于为每个头和每个token分别计算量化参数,可以更好地保留原始浮点数的分布特性,从而提高量化后的模型精度。
    • 灵活性:可以根据不同头和token的特性进行定制化的量化,提高量化的灵活性。
  • 挑战

    • 计算复杂度:为每个头和每个token分别计算量化参数会增加计算复杂度。
    • 存储需求:需要存储更多的量化参数,增加了存储需求。

实操

系统环境(仅参考)

  • Intern Studio A100 50%算力(= 40g显存)
  • ubuntu 20.04
  • CUDA Version: 12.2

环境配置

教程

跟着 https://github.com/InternLM/Tutorial/blob/camp3/docs/L2/LMDeploy/readme.md 教程一步一步走即可,写的相当详细
由于我用的是Intern Studio预置的系统环境,因此整个过程中没有遇到任何坑~祝各位也一步到位

FAQ&注意事项

  • 时间不是很充裕的话,选internlm2_5-1_8b-chat模型进行量化操作,按教程经验,7b模型要耗费≈8小时

运行过程截图

量化部署

  • kv cache在线4bit量化
  • 模型权重4bit量化
    在这里插入图片描述

Function calling

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值