第5节作业

0. 作业截图

命令行生成小说
在这里插入图片描述

在这里插入图片描述

TurboMind推理+API服务
在这里插入图片描述
在这里插入图片描述

ssh隧道端口转发后

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

1. 动手时间 —— 安装 部署 量化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
可以直接启动本地的 Huggingface 模型,如下所示

lmdeploy chat turbomind /share/temp/model_repos/internlm-chat-7b/  --model-name internlm-chat-7b

在这里插入图片描述

离线转换
在这里插入图片描述
TurboMind 推理+命令行本地对话
在这里插入图片描述

2. 课程笔记

LMDeploy 部署实战

  • 采用内自回归生成Token, 需要缓存 Attention 的 k/v ,带来巨大的内存开销
  • 动态shape,请求数不固定,Token逐个生成数量不定
  • LLM结构简单,大部分是 Decoder-Only

在这里插入图片描述

带来的挑战

在这里插入图片描述
LMDeploy

  • 大语言模型在英伟达设备上的部署

在这里插入图片描述

在这里插入图片描述
计算密集 + 访存密集两种

在这里插入图片描述
AWQ算法 <> GPTQ算法(之前的sota), 前者推理速度快,量化时间短
kv-cache int8 量化

推理引擎 turboMind 做了非常多的优化
在这里插入图片描述

  • Continuous Batch 持续批处理
  • 有状态推理,需要用户每次带上对话记录
  • 分块的 kv cache,支持不连续的 k/v
  • 高性能的 cuda kernel (flash attention 2, w4a16, 反量化 kernel)

Continuous Batch,主要是一个持续的批处理
在这里插入图片描述

server端帮你存上下文,不需要用户去带
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

推理服务API SERVER

  • 模型列表 和 openai 是一致的
    在这里插入图片描述
  • 13
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值