QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

摘要

量化技术能够加速大规模语言模型(LMM)的预测。在INT8量化方法之上,研究者们正积极探索更低精度的技术,如INT4量化。然而,目前的INT4量化算法尚未实现对GPU中加速器内部重要运算(weight和KV全盘逐段)的低负载表现。我们发现,有关如何提高LMM服务效率的问题核心在于对GPU上进行操作时处理速度与通道数密切相关。因此,我们开发了QoQ量化算法,其中W4A8KV4指的是 4-bit weight、8-bit activation和4-bit KV cash;它还能将整个系统预测速度提高了1.2倍(比TensorRT提高了一倍),1.4倍(比Llama-3提高了两倍)在A100上。由于QServe可以将整个系统的预测速度再提高 2.4倍(TensorRT仅是一倍),我们发现L40S GPU中对比性能更好;同时通过使用QServe可以将LMM服务成本降低3倍。因此,实证研究表明 QoQ量化算法在极大地提高了 LLM 的预测速度。
论文摘要:



亮点

针对小批量和大批量数据进行的高效LLM推理

将SmoothQuant和AWQ的优点结合起来

比较着重于在A100上的TensorRT-L40框架性能与更经济实用的GPU L40产品,这些是具有成本效益的GPU设计

四位元缓存内容压缩算法

编码开源化了

结论

我们对QServe W4A8KV4的量化器性能在常用的主流LLM中进行了广泛测试,发现其从精度方面优于已有的W4A4或者W4A8解决方案。同时QServe提供了业界领先的LLM服务效率。

准确性评估

下面是使用了2048个序列长度进行评估的WikiText2搜索结果紧密性值,其数值越小越好。

效率指标

在使用大型语言模型(Llama-3和Qwen1.5)以及A100 GPU上执行的评估中,QServe能够实现更高效率、并比领先行业解决方案(TensorRT-LLM)在处理Llama-3和Qwen1.5语言模型时提供的性能有所超越,其中在处理 Llama-3 8B 大规模语言模型时增加了1.2~1.4x高的吞吐量(TensorRT-LLM为1.097)。对 Qwen1.5 64B 大型语言模型来说,其处理效率是 TensorRT-LLM A100 GPU上表现的两倍多(2.4~3.5x)。与之比较而言,QServe在 L40S 和TensorRT-LLM A100 GPU上处理相同规模语言模型时均能提供更高的性能(领先行业解决方案为每个样本),有效地将了服务大型语言模型成本从目前的10%左右下降到约3倍。

标准配置:计算性能较高的NVIDIA GPU,输入语料长度为1024个字节,输出生成长度为512个字节。对支持并行注意力模式的系统,我们将其中一项功能开启。在效率测试中关闭了空投算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Arthur.AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值