LLM 模型量化推理速度评测

sinat_15355869

已于 2024-03-17 17:51:44 修改

阅读量1k

点赞数 9

文章标签：人工智能大模型 Attention 量化

于 2024-03-05 21:08:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_15355869/article/details/136487902

版权

最近了解了下些常见的推理和加速方案：

1、量化方案：

gptq、quantization、int8、int4、AWQ、Speculative Decoding、GGUF

2、Attention加速方案：

atten的不同种类
fused attention

3、内存层面：

kv_cache策略、page_attention
StreamingLLM（这个不能算加速，算技巧）
batching
复用prompt策略
Continuous batching

4、硬件层面：

A100最好，越高越好，新的加速硬件
flash_attention1 & flash_attention2 加速策略
kernel 算子融合策略
tensor 并行，分布式

5、模型层面：

参数量降低1B？、层数降低、模型结构创新

可能不少遗漏，欢迎各位大佬补充在评论区~

部分经验总结 & 问题：

1、compile 整个模型后的模型确实更快了，如果只compile attention部分加速不大，因为compile优化的空间并不大

2、投机采样测试过程中发现多卡推理 int4 模型出现报错，int8模型没有问题，这个目前没空看了

3、量化确实会带来速度的巨大提升，但是模型效果截图不太方便，效果确实降低了一些

4、AWQ量化后的千问7B模型，效果巨差，暂不确定问题在哪，目测了效果

不同cuda_kernel 的测试结果: default vs sdp-math vs sdp-flash vs sdp-efficient：

vllm & compile测试后的结果:

公众号"小晨的AI工作室"回复: "vllm_test" 获得无水印原图~

关注

9
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。