进阶岛--LMDeploy 量化部署

最新推荐文章于 2024-10-12 12:26:23 发布

Noyes

最新推荐文章于 2024-10-12 12:26:23 发布

阅读量1k

点赞数 11

分类专栏： InternStudio学习笔记文章标签： ai 人工智能语言模型

本文链接：https://blog.csdn.net/song19931218/article/details/141728613

版权

7 篇文章 0 订阅

订阅专栏

What?

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。
这个强大的工具箱提供以下核心功能：

高效的推理：LMDeploy 开发了 Persistent Batch(即 Continuous Batch)，Blocked K/V Cache，动态拆分和融合，张量并行，高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍
可靠的量化：LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。
便捷的服务：通过请求分发服务，LMDeploy 支持多模型在多机、多卡上的推理服务。
有状态推理：通过缓存多轮对话过程中 attention 的 k/v，记住对话历史，从而避免重复处理历史会话。显著提升长文本多轮对话场景中的效率。
卓越的兼容性: LMDeploy 支持 KV Cache 量化, AWQ 和 Automatic Prefix Caching 同时使用。

随着模型变得越来越大，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。LMDeploy 提供了权重量化和 k/v cache两种策略。

非对称量化是一种量化技术，用于将浮点数转换为整数，以减少模型的大小和计算复杂度。在大模型中，特别是在自然语言处理（NLP）领域，这种技术可以显著减少模型的存储和计算需求。

非对称量化通常涉及以下步骤

在Transformer模型中，特别是BERT、GPT等大模型中，每个注意力头（attention head）和每个token都需要进行量化。Per-Head Per-Token的非对称量化意味着为每个注意力头和每个token分别计算量化参数。

步骤
1. 为每个注意力头计算量化参数：每个注意力头的权重和激活值可能具有不同的分布，因此需要为每个头计算独立的量化参数。
2. 为每个token计算量化参数：每个token的激活值也可能具有不同的分布，因此需要为每个token计算独立的量化参数。
优点
- 更高的精度：由于为每个头和每个token分别计算量化参数，可以更好地保留原始浮点数的分布特性，从而提高量化后的模型精度。
- 灵活性：可以根据不同头和token的特性进行定制化的量化，提高量化的灵活性。
挑战
- 计算复杂度：为每个头和每个token分别计算量化参数会增加计算复杂度。
- 存储需求：需要存储更多的量化参数，增加了存储需求。