背景:
将训练好的模型部署到特定的软硬件环境
为了满足性能,常常需要优化模型
特点:
内存开销大
动态shape
挑战:
巨大的存储问题
加速
吞吐量
lmdeploy
核心功能
持续批,有状态,高性能,
#基础作业
配置开发环境
conda create -n CONDA_ENV_NAME --clone /share/conda_envs/internlm-base
/root/share/install_conda_env_internlm_base.sh lmdeploy
conda activate lmdeploy
pip install packaging
pip install /root/share/wheels/flash_attn-2.4.2+cu118torch2.0cxx11abiTRUE-cp310-cp310-linux_x86_64.whl
pip install 'lmdeploy[all]==v0.1.0'
转换模型
lmdeploy convert internlm-chat-7b /path/to/internlm-chat-7b
本地对话
lmdeploy chat turbomind ./workspace
结果