Ollama代替品Xinference快速本地部署

最新推荐文章于 2025-04-28 15:18:20 发布

小码农吗

最新推荐文章于 2025-04-28 15:18:20 发布

阅读量1.1k

点赞数 10

分类专栏： AI 文章标签：人工智能 Xinference 大模型

本文链接：https://blog.csdn.net/qq_42818496/article/details/145571490

版权

AI 专栏收录该内容

14 篇文章

订阅专栏

这里写目录标题

前言
环境准备及安装
安装
启动

前言

Xinference 在 Linux, Windows, MacOS 上都可以通过 pip 来安装。如果需要使用 Xinference 进行模型推理，可以根据不同的模型指定不同的引擎。

环境准备及安装

Phthon环境，版本越高越好

安装

如果你希望能够推理所有支持的模型，可以用以下命令安装所有需要的依赖：
pip install "xinference[all]"

Transformers 引擎

PyTorch(transformers) 引擎支持几乎有所的最新模型，这是 Pytorch 模型默认使用的引擎：

pip install "xinference[transformers]"

vLLM 引擎

vLLM 是一个支持高并发的高性能大模型推理引擎。当满足以下条件时，Xinference 会自动选择 vllm 作为引擎来达到更高的吞吐量：

pip install "xinference[vllm]"

模型格式为 pytorch ， gptq 或者 awq 。
当模型格式为 pytorch 时，量化选项需为 none 。
当模型格式为 awq 时，量化选项需为 Int4 。
当模型格式为 gptq 时，量化选项需为 Int3 、 Int4 或者 Int8 。
操作系统为 Linux 并且至少有一个支持 CUDA 的设备
自定义模型的 model_family 字段和内置模型的 model_name 字段在 vLLM 的支持列表中。

点击查看现在支持的模型

Llama.cpp 引擎

Xinference 通过 llama-cpp-python 支持 gguf 和 ggml 格式的模型。建议根据当前使用的硬件手动安装依赖，从而获得最佳的加速效果。

pip install xinference

不同硬件的安装方式

不同版本的python自己修改pip或pip3

Apple M系列
CMAKE_ARGS="-DLLAMA_METAL=on" pip3 install llama-cpp-python

英伟达显卡：
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip3 install llama-cpp-python

AMD 显卡：
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip3 install llama-cpp-python

SGLang 引擎

SGLang 具有基于 RadixAttention 的高性能推理运行时。它通过在多个调用之间自动重用KV缓存，显著加速了复杂 LLM 程序的执行。它还支持其他常见推理技术，如连续批处理和张量并行处理。

pip install 'xinference[sglang]'

MLX Backend

MLX-lm 用来在苹果 silicon 芯片上提供高效的 LLM 推理。

pip install 'xinference[mlx]'

启动

xinference-local --host 0.0.0.0 --port 9997

默认情况下，Xinference 会使用 /.xinference 作为主目录来存储一些必要的信息，比如日志文件和模型文件，其中就是当前用户的主目录。

你可以通过配置环境变量 XINFERENCE_HOME 修改主目录，比如：

XINFERENCE_HOME=/tmp/xinference xinference-local --host 0.0.0.0 --port 9997

可以通过访问 http://127.0.0.1:9997/ui 来使用 UI，访问 http://127.0.0.1:9997/docs 来查看 API 文档。

😁 作者：Teddy (公众号：码尚云软件)
ok！到这里就大功告成，小编（Teddy）在这里先感谢大家的到来。
虽然不是太详细，小编已经很努力，给小编来个一键三连(点赞，关注，收藏)，小编会越来越努力。。。