模型部署 定义 产品形态 计算设备
大模型特点 内存开销大 动态shape 结构简单
部署挑战 设备存储 推理速度 服务质量
部署方案:技术点 (模型并行 transformer计算和访存优化 低比特量化 Continuous Batch Page Attention)方案(云端 移动端)
LMDeploy: 云端部署
接口: python gRPC RESTful
轻量化 推理引擎 服务(api server gradio triton inference server)
无缝对接open compass
推理性能 静态vs动态
核心功能 量化FP16 Int4-8
模型显存优化明显(24GB显存 4倍提升)
计算密集 访存密集(大模型一般是访存密集)
推理引擎 TurboMind
持续批处理 有状态的推理 高性能cuda kernel Blocked k/v cache分块缓存
持续批处理 请求队列+Persistent线程
有状态的推理 推理测的缓存
分块的k/v缓存 历史缓存
高性能cuda kernel
Flash Attention2
Split-k decoding
Fast w4a16, kv8
算子融合
推理服务api server