LLM课程【书生·浦语 InternLM实战营】5 - 模型部署

大模型部署背景

模型部署:人工智能算法的落地,将训练好的模型放置在特定的环境中运行的过程。

部署场景

  • 服务器端:CPU部署、GPU/TPU/NPU部署、多卡/集群部署
  • 移动端、边缘段:手机等

大模型部署面临的挑战

  1. 计算量巨大
  2. 内存开销巨大:模型参数、attention-KV缓存
  3. 访存瓶颈:数据交换
  4. 动态请求:请求量、请求时间、生成数量不确定

大模型部署方法

  1. 模型剪枝(Pruning):对模型的冗余参数进行剪枝,保证性能最低下降的同时减少参数量
    1)非结构化剪枝
    2)结构化剪枝:保留原始模型结构
  2. 知识蒸馏(Knowledge Distillation):使用参数量较少的模型拟合参数量大的网络,使模型通过更少的参数量达到更好的效果
  3. 量化(Quantization):在对模型应答效果影响不大的基础上,损失表示精度,将浮点数量化为其它形式
    • 能减轻模型存储和计算负担,并降低访存量
    • 量化感知训练(QAT)、量化感知微调(QAF)、训练后量化(PTQ)

LMDeploy:全套轻量化部署解决方案

核心功能

  1. 模型高效推理:LLaMa结构模型的支持、continuous batch推理模式、可扩展的KV缓存管理器
  2. 模型量化压缩
  3. 服务化部署:提供API接口以实现快捷的服务化部署
  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值