记录下部署过程,整体流程和我的上篇文章昇腾910A单卡与多卡部署mindie框架开启qwen2-7B大模型api-CSDN博客
差不多:拉取镜像,创建容器,模型下载,推理测试,修改配置,启动服务,接口测试。
这篇文章主要记录操作流程,相关细节可以在上篇文章中寻找。
1、拉取镜像
拉取镜像
docker pull swr.cn-central-221.ovaijisuan.com/wh-aicc-fae/mindie:910A-ascend_24.1.rc3-cann_8.0.t63-py_3.10-ubuntu_20.04-aarch64-mindie_1.0.T71.02
2、创建容器
启动命令,这里选择了加载双卡0,1
docker run -it --ipc=host --net=host \
--name MindIE \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/common \
-v /usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/driver \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /etc/vnpu.cfg:/etc/vnpu.cfg \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /home/aicc:/home/aicc \
swr.cn-central-221.ovaijisuan.com/wh-aicc-fae/mindie:910A-ascend_24.1.rc3-cann_8.0.t63-py_3.10-ubuntu_20.04-aarch64-mindie_1.0.T71.02 \
/bin/bash
3、模型下载
推荐魔搭平台
DeepSeek-R1-Distill-Qwen-7B · 模型库
pip install modelscope
#下载到指定目录
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir /data/model
修改权重路径中config.json
中的torch_dtype
为float16
cd /模型权重路径
vim config.json
4、推理测试
torchrun --nproc_per_node 卡数
--master_port 20038
-m examples.run_pa
--model_path 权重路径
--input_text ["输入的token"]
--is_chat_model
--max_output_length 输出长度
#例
torchrun --nproc_per_node 1 \
--master_port 20038 \
-m examples.run_pa \
--model_path /data/model/DeepSeek-R1-Distill-Qwen-7B \
--input_text ["你好"] \
--is_chat_model \
--max_output_length 128
推理测试效果:
5、修改配置
cd /usr/local/Ascend/mindie/latest/mindie-service/
vim conf/config.json
6、启动服务
bin/mindieservice_daemon
注:如果启动报错,可以查看/usr/local/Ascend/mindie/1.*/mindie-service/logs下的log文件。
7、接口测试
openai格式
time curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{
"model": "qwen",
"messages": [{
"role": "user",
"content": "我有五天假期,我想去海南玩,请给我一个攻略"
}],
"max_tokens": 512,
"presence_penalty": 1.03,
"frequency_penalty": 1.0,
"seed": null,
"temperature": 0.5,
"top_p": 0.95,
"stream": false
}' http://127.0.0.1:1025/v1/chat/completions #其中127.0.0.1以实际ip地址为准
注意:model参数要和conf/config.json文件中的modelname保持一致