书生·浦语大模型实战营第五课笔记

主讲人:长琴

视频:(5)LMDeploy 大模型量化部署实践哔哩哔哩bilibili

主要内容:LMDeploy大模型量化部署实践

1.大模型部署背景

在模型部署的过程中,最主要的性能和效率上的考虑,如模型的压缩和硬件的加速。

特点:显存开销大,动态shape不固定,结果相对简单。

推理方面:

1.加速模型生成token时间

2.合理管理动态shape问题

3.合理管理内存

2.LMDeploy简介

LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括轻量化、推理和服务。

轻量化

4bit量化,8bit k/v量化

推理引擎

turbomind,pytorch

服务

api server、gradio、triton inference server

推理性能

核心功能-量化

为什么做量化:降低模型占用显存

大模型是经典访存密集,即大部分时间都消耗在每个token的生成阶段。

Weight only大幅降低访存成本,提高Decoding速度,同时降低显存,使得相同设备会有更大的模型和更长的对话长度。

AWQ算法

AWQ算法主要思想:保留最重要的参数(在整个模型中占比很小),其他参数进行量化。可大幅降低显存占用。

3.核心功能-推理引擎TurboMind

1.持续批处理

2.有状态的推理 server储存历史对话

3.Block k/v cache

4.高性能 cuda kernel

4.核心功能-推理服务 api server

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值