华为昇腾服务器安装Xinference详细记录，310P NPU慎用！

再吃一颗苹果cc

已于 2025-04-14 19:42:37 修改

阅读量720

点赞数 4

文章标签：人工智能华为 gpt transformer 深度学习自然语言处理

于 2025-04-14 17:12:32 首次发布

本文链接：https://blog.csdn.net/qq_41994821/article/details/147223327

版权

华为昇腾服务器安装Xinference详细记录

注意：截止2025年4月14日，310P3 NPU，Xinference社区版推理LLM速度非常慢，建议安装MindIE（跳转）

！！！无特别需求，尽量都选用MindIE。亲测MindIE性能 > vllm-ascend。！！！

目前vllm支持情况：
Currently, ONLY Atlas A2 series (Ascend-cann-kernels-910b) are supported:
Atlas A2 Training series (Atlas 800T A2, Atlas 900 A2 PoD, Atlas 200T A2 Box16, Atlas 300T A2)
Atlas 800I A2 Inference series (Atlas 800I A2)
Below series are NOT supported yet:
Atlas 300I Duo、Atlas 300I Pro (Ascend-cann-kernels-310p) might be supported on 2025.Q2
Atlas 200I A2 (Ascend-cann-kernels-310b) unplanned yet
Ascend 910, Ascend 910 Pro B (Ascend-cann-kernels-910) unplanned yet

开始安装

在这里插入图片描述

Xinference需要配置驱动、torch、torch-npu等环境，最简单的方法是套用MindIE镜像。省略下载容器，详情见（跳转）

启动容器

docker run -it -d --net=host --shm-size=1g  \
    --name Xinf \
    --device /dev/davinci0 \
    --device /dev/davinci1 \
    --device /dev/davinci2 \
    --device /dev/davinci3 \
    --device /dev/davinci4 \
    --device /dev/davinci5 \
    --device /dev/davinci6 \
    --device /dev/davinci7 \
    --device /dev/davinci_manager \
    --device /dev/devmm_svm \
    --device /dev/hisi_hdc \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
    -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /data/modelscope/hub/models/deepseek-ai:/data/models \
    -it  swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:1.0.0-300I-Duo-py311-openeuler24.03-lts bash

进入容器

docker exec -it Xinf bash

查看显卡是否正常：
在这里插入图片描述
运行如下命令查看，如果正常运行，会打印昇腾 NPU 的个数。

python -c "import torch; import torch_npu; print(torch.npu.device_count())"

开始安装Xinference

pip3 install xinference -i https://pypi.tuna.tsinghua.edu.cn/simple

版本参考：
torch 2.1.0+cpu
torch-npu 2.1.0.post10
torchvision 0.16.0
xinference 1.4.1

启动Xinference

xinference-local --host 0.0.0.0 --port 9997
后台运行：
nohup xinference-local --host 0.0.0.0 --port 9997 > xinference.log 2>&1 &

启动成功！

Xinf启动模型

在这里插入图片描述

测试

curl -X 'POST' \
  'http://127.0.0.1:9997/v1/chat/completions' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "DS14b",
    "stream": true,
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "What is the largest animal?"
        }
    ]
  }'

Xinference配置如下：
在这里插入图片描述