【InternLM 实战营第二期】第五节 笔记

【InternLM 实战营第二期】第五节 笔记

第五节 LMDeploy 量化部署 LLM-VLM 实践

参考:

视频教学:https://www.bilibili.com/video/BV1tr421x75B/
文档链接:https://github.com/InternLM/Tutorial/blob/camp2/

一、大模型部署背景

在这里插入图片描述
大模型部署面临的挑战:

  • 计算量巨大
    在这里插入图片描述
  • 内存开销巨大
    在这里插入图片描述
  • 访存瓶颈
  • 动态请求
    请求量不确定;请求时间不确定;Token逐个生成,生成数量不确定。

二、大模型部署方法

  1. 模型剪枝
    在这里插入图片描述
  2. 知识蒸馏
    知识蒸馏是一种经典的模型压缩方法,核心思想是通过引导轻量化的学生模型“模仿”性性能更好、结构更复杂的教师模型,在不改变学生模型结构的情况下提高其性能。
  3. 量化
    在这里插入图片描述

三、LMDeploy简介

LMDeploy核心功能

  • 模型高效推理
    参考命令:lmdeploychat-h
  • 模型量化压缩
    参考命令:lmdeploylite-h
  • 服务化部署
    参考命令:lmdeployserve-h

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值