主讲人:长琴
视频:(5)LMDeploy 大模型量化部署实践哔哩哔哩bilibili
主要内容:LMDeploy大模型量化部署实践
1.大模型部署背景
在模型部署的过程中,最主要的性能和效率上的考虑,如模型的压缩和硬件的加速。
特点:显存开销大,动态shape不固定,结果相对简单。
推理方面:
1.加速模型生成token时间
2.合理管理动态shape问题
3.合理管理内存
2.LMDeploy简介
LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括轻量化、推理和服务。
轻量化
4bit量化,8bit k/v量化
推理引擎
turbomind,pytorch
服务
api server、gradio、triton inference server
推理性能
核心功能-量化
为什么做量化:降低模型占用显存
大模型是经典访存密集,即大部分时间都消耗在每个token的生成阶段。
Weight only大幅降低访存成本,提高Decoding速度,同时降低显存,使得相同设备会有更大的模型和更长的对话长度。
AWQ算法
AWQ算法主要思想:保留最重要的参数(在整个模型中占比很小),其他参数进行量化。可大幅降低显存占用。