【亲测】Windows 11通过Docker安装Xinference 平台


一、Xinference 是什么?

Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。简单来讲,就是一个可以安装各种模型可视化的安装平台。

1.1 准备工作

  • Xinference 使用 GPU 加速推理,该镜像需要在有 GPU 显卡并且安装 CUDA 的机器上运行。
  • 保证 CUDA 在机器上正确安装。可以使用 nvidia-smi 检查是否正确运行。
  • 镜像中的 CUDA 版本为 12.4 。为了不出现预期之外的问题,请将宿主机的 CUDA 版本和 NVIDIA Driver 版本分别升级到 12.4550 以上。

注意: 在安装之前可以先cmd执行一下 nvidia-smi 命令,看看本机的gpu版本多少的。按照官网的要求,CUDA和NVIDIA Driver的版本必须得12.4和550以上。我本地是 CUDA Version: 12.2 、Driver Version: 537.34 的,但也能运行起来,我升级升不上去,不知道为啥,如果有知道的小伙伴,欢迎交流。



Windows 执行命令:(注意盘符问题)

docker run  -d  --name xinference --gpus all  -v e:/xinference/models:/root/models  -v e:/xinference/.xinference:/root/.xinference -v e:/xinference/.cache/huggingface:/root/.cache/huggingface -e XINFERENCE_HOME=/root/models  -p 9997:9997  registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest  xinference-local -H


docker run  -d  --name xinference --gpus all  -v /opt/xinference/models:/root/models  -v /opt/xinference/.xinference:/root/.xinference -v /opt/xinference/.cache/huggingface:/root/.cache/huggingface -e XINFERENCE_HOME=/root/models  -p 9997:9997  registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest  xinference-local -H

参数解释 (重点):

-v e:/xinference/models:/root/models默认情况下,镜像中不包含任何模型文件,使用过程中会在容器内下载模型。如果需要使用已经下载好的模型,需要将宿主机的目录挂载到容器内。这种情况下,需要在运行容器时指定本地卷,并且为 Xinference 配置环境变量。 (自定义挂载目录,与下面默认挂载方式二选一)
-e XINFERENCE_HOME=/root/models将主机上指定的目录挂载到容器中,并设置 XINFERENCE_HOME 环境变量指向容器内的该目录。这样,所有下载的模型文件将存储在您在主机上指定的目录中。您无需担心在 Docker 容器停止时丢失这些文件,下次运行容器时,您可以直接使用现有的模型,无需重复下载。 (如果选择自定义目录,则需要指定环境变量)
-v e:/xinference/.xinference:/root/.xinference -v e:/xinference/.cache/huggingface:/root/.cache/huggingface如果你在宿主机使用的默认路径下载的模型,由于 xinference cache 目录是用的软链的方式存储模型,需要将原文件所在的目录也挂载到容器内。例如你使用 huggingface 和 modelscope 作为模型仓库,那么需要将这两个对应的目录挂载到容器内,一般对应的 cache 目录分别在 <home_path>/.cache/huggingface 和 <home_path>/.cache/modelscope是(默认挂载方式与上面自定义挂载方式二选一)
-p 9997:9997端口映射
registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest当前,可以通过两个渠道拉取 Xinference 的官方镜像。
1. 在 Dockerhub 的 xprobe/xinference 仓库里。
2. Dockerhub 中的镜像会同步上传一份到阿里云公共镜像仓库中,供访问 Dockerhub 有困难的用户拉取。
nightly-main: 这个镜像会每天从 GitHub main 分支更新制作,不保证稳定可靠。
v<release version>: 这个镜像会在 Xinference 每次发布的时候制作,通常可以认为是稳定可靠的。
latest: 这个镜像会在 Xinference 发布时指向最新的发布版本 。 对于 CPU 版本,增加 -cpu后缀,如nightly-main-cpu`。
-H 必须指定的,否则在容器外无法连接到 Xinference 服务。

2.1 页面访问

通过以上命令启动之后,即可通过 localhost:9997 也可以通过本机IP地址访问,比如 去访问。

2.2 操作页面介绍



部署好之后,我们在线部署一个简单对话模型: 以 qwen-chat 为例

3.1 搜索 qwen-chat 回车


3.2 开始部署

参数填写完之后,点击小火箭,即可部署。这里需要等待,因为需要去模型仓库里面拉取模型,默认两个:huggingface和modelscope 。下载模型需要开代理,我这边下载默认是从huggingface里面下载的,所以全程代理下载。部署速度由代理速度决定。

3.3 开始对话

部署好之后,我们在 “Running Models” 看到模型。需要注意的是,能够跑的模型数量取决于GPU数量,如果你只有一颗GPU,那只能跑一个模型,以此类推。



4.1 下载模型

目前Xinference 支持的模型家族有,大部分都是支持的。

4.2 注册模型

下载好对应模型之后,放到容器挂载的目录下面。此处目录注意,如果是第一次注册本地模型,直接放到你启动Xinference的挂载目录即可。比如 e:/xinference/models ,注册之后会自动创建对应的模型仓库,然后移动模型,以后就可以直接放到对应仓库下面即可。



4.3 启动模型


4.4 开始对话

启动好之后,还是在“Running Models” 当中,点击后面的对话,即可开始对话。



以上就是 Windows11 通过 Docker 部署Xinference 平台的操作步骤。
