大模型部署背景
模型部署指得是将训练好模型部署到特定的软硬件环境中进行启动,对于大模型而言,其特点在于内存开销巨大,shape是动态,但是相对视觉模型,LLM的结构比较简单,大部分是decoder-only
目前针对大模型部署,常见的技术点包括模型并行,低比特量化,Page Attention, transformer 计算和访存优化,Continous Batch, 方案有常见lmdeploy,vllm,tensorrt-llm,deepspeed, 移动端有llama.cpp, mlc-llm
LMdeploy介绍
LMdeploy是一个一个在英伟达部署的全流程解决方案,包括轻量化,推理和服务
核心功能—量化
LMDeploy相比其他框架具有不错的效果
LLM是典型的访存密集型任务
使用AWQ算法实现Weight Only量化
核心功能—推理引擎TurboMind