1、安装LMDeploy
conda create -n lmdeploy python=3.10 conda activate lmdeploy conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
#安装lmdeploy最新版。
pip install -U lmdeploy[all]
2、LMDeploy Chat CLI 工具
lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct
运行完毕后,出现问题输入提示,可以开始问Llama3问题了
3、使用W4A16量化
lmdeploy lite auto_awq \ /root/model/Meta-Llama-3-8B-Instruct \ --calib-dataset 'ptb' \ --calib-samples 128 \ --calib-seqlen 1024 \ --w-bits 4 \ --w-group-size 128 \ --work-dir /root/model/Meta-Llama-3-8B-Instruct_4bit
运行完毕后,在~/model/目录下可以看到生成的 Meta-Llama-3-8B-Instruct_4bit 模型
通过以下指令可以运行刚刚创建的4bit模型
lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct_4bit --model-format awq