DELTAZIP: Multi-Tenant Language Model Serving via Delta Compression-CSDN博客

本文链接：https://blog.csdn.net/qq_51802743/article/details/135395199

DELTAZIP: 通过增量压缩实现多租户语言模型服务：这篇论文提出了一种高效地同时为多个微调过的大型语言模型（LLM）提供服务的系统，利用了微调模型和预训练基础模型之间的差异（delta）的高压缩性。
微调和压缩LLM的挑战：微调LLM可以显著提高下游任务的性能，但是为多个不同的微调模型提供服务是非常困难的，因为每个模型都占用大量的GPU内存，而且请求模式是不可预测的。现有的优化方法要么牺牲模型质量，要么增加服务延迟。
DELTAZIP的核心思想：DELTAZIP的关键是微调模型可以通过提取和压缩它们和预训练基础模型之间的delta，快速地在GPU内存中交换。DELTAZIP使用无损和有损的压缩技术，将delta压缩到原来的6×到8×，同时保持高模型质量。DELTAZIP还通过批量处理基础模型的推理请求，提高了服务吞吐量。
DELTAZIP的评估结果：在多个自然指令的下游任务上，DELTAZIP与无压缩的全参数微调模型相比，只有微小的准确度损失，而与现有的压缩技术和参数高效微调方法相比，有更高的准确度和更高的压缩比。在一个原型服务系统上，DELTAZIP比HuggingFace的LLM服务系统基线提高了1.5×到3×的吞吐量，并改善了SLO的达成情况。
通用聊天机器人的评估：作者使用 JudgeLM [74] 这个基于语言模型的评价方法，来比较压缩后的模型和未压缩的模型的回复质量。他们发现压缩后的模型的平均回复质量和未压缩的模型相当，只有很小的分数下降。
服务性能：作者构建了一个原型服务系统，并评估了延迟、吞吐量和 SLO 达成率。他们使用了一个 3B 参数的模型，并将其压缩为两种变体：4 位量化（压缩比为 4.27×）和 2 位量化（压缩比为 8.24×）。他们主要展示了他们的系统在单个 RTX 3090 上的性能，该 GPU 配备了快速的 NVMe SSD（带宽为 2.1GB/s）。他们将 DELTAZIP 与最流行的变换器推理库 HuggingFace Transformers (HF) [65] 进行了比较。
加载速率：DELTAZIP采用无损压缩将加载时间减少了3~4倍。
吞吐量：作者使用了与 §6.2.2 中相同的跟踪来评估 DELTAZIP 的吞吐量。在轻度的工作负载下，DELTAZIP 可以将系统的吞吐量提高 6× 以上（左上图）。