大模型学习之书生·浦语大模型5——基于LMDeploy大模型量化部署实践

在这里插入图片描述

目录

在这里插入图片描述

大模型部署背景

在这里插入图片描述
在这里插入图片描述

LMDeploy部署

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

量化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

TurboMind

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

API server

在这里插入图片描述

动手实践环节

在这里插入图片描述

1.创建开发机

在这里插入图片描述

2.创建虚拟环境

在这里插入图片描述

3.服务部署

在这里插入图片描述
在线转换模型
在这里插入图片描述
在这里插入图片描述
离线转换

在这里插入图片描述

4.TurboMind推理

在这里插入图片描述

  • TurboMind+API服务
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    提供了一些API的接口
    在这里插入图片描述

  • Gradio Demo演示
    API server作为后端
    在这里插入图片描述
    注意这里要同时启动API server的
    在这里插入图片描述

TurboMind推理作为后端
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.Benchmark

在这里插入图片描述

模型量化

模型量化以在保证精度的同时,降低空间占用以及加快推理速度。

KV Cache量化

  • 第一步:计算minmax
    在这里插入图片描述

  • 第二步:通过minmax获取量化参数
    在这里插入图片描述
    在这里插入图片描述

  • 第三步:修改配置文件,打开一些开关

  • 量化效果:
    在这里插入图片描述
    在这里插入图片描述

  • 性能有下降,也有提升
    在这里插入图片描述
    在这里插入图片描述

W4A16量化

  • 第一步:计算minmax
    在这里插入图片描述

  • 第二步:量化权重模型
    在这里插入图片描述

  • 第三步:转换为TurboMind格式
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

量化效果
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
讲个故事:
在这里插入图片描述

参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

uncle_ll

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值