QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving-CSDN博客

本文链接：https://blog.csdn.net/qq_34106574/article/details/139099318

QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

摘要

量化技术能够加速大规模语言模型（LMM）的预测。在INT8量化方法之上，研究者们正积极探索更低精度的技术，如INT4量化。然而，目前的INT4量化算法尚未实现对GPU中加速器内部重要运算（weight和KV全盘逐段）的低负载表现。我们发现，有关如何提高LMM服务效率的问题核心在于对GPU上进行操作时处理速度与通道数密切相关。因此，我们开发了QoQ量化算法，其中W4A8KV4指的是 4-bit weight、8-bit activation和4-bit KV cash；它还能将整个系统预测速度提高了1.2倍（比TensorRT提高了一倍），1.4倍（比Llama-3提高了两倍）在A100上。由于QServe可以将整个系统的预测速度再提高 2.4倍（TensorRT仅是一倍），我们发现L40S GPU中对比性能更好；同时通过使用QServe可以将LMM服务成本降低3倍。因此，实证研究表明 QoQ量化算法在极大地提高了 LLM 的预测速度。
论文摘要:

‍

亮点

针对小批量和大批量数据进行的高效LLM推理

将SmoothQuant和AWQ的优点结合起来

比较着重于在A100上的TensorRT-L40框架性能与更经济实用的GPU L40产品，这些是具有成本效益的GPU设计

四位元缓存内容压缩算法

编码开源化了

结论

我们对QServe W4A8KV4的量化器性能在常用的主流LLM中进行了广泛测试，发现其从精度方面优于已有的W4A4或者W4A8解决方案。同时QServe提供了业界领先的LLM服务效率。

准确性评估

下面是使用了2048个序列长度进行评估的WikiText2搜索结果紧密性值，其数值越小越好。

效率指标

在使用大型语言模型（Llama-3和Qwen1.5）以及A100 GPU上执行的评估中，QServe能够实现更高效率、并比领先行业解决方案（TensorRT-LLM）在处理Llama-3和Qwen1.5语言模型时提供的性能有所超越，其中在处理 Llama-3 8B 大规模语言模型时增加了1.2~1.4x高的吞吐量（TensorRT-LLM为1.097）。对 Qwen1.5 64B 大型语言模型来说，其处理效率是 TensorRT-LLM A100 GPU上表现的两倍多（2.4~3.5x）。与之比较而言，QServe在 L40S 和TensorRT-LLM A100 GPU上处理相同规模语言模型时均能提供更高的性能（领先行业解决方案为每个样本），有效地将了服务大型语言模型成本从目前的10%左右下降到约3倍。

标准配置：计算性能较高的NVIDIA GPU，输入语料长度为1024个字节，输出生成长度为512个字节。对支持并行注意力模式的系统，我们将其中一项功能开启。在效率测试中关闭了空投算法。