Ollama代替品Xinference快速本地部署


在这里插入图片描述

前言

Xinference 在 Linux, Windows, MacOS 上都可以通过 pip 来安装。如果需要使用 Xinference 进行模型推理,可以根据不同的模型指定不同的引擎。

环境准备及安装

  • Phthon环境,版本越高越好

安装

如果你希望能够推理所有支持的模型,可以用以下命令安装所有需要的依赖:
pip install "xinference[all]"

Transformers 引擎

PyTorch(transformers) 引擎支持几乎有所的最新模型,这是 Pytorch 模型默认使用的引擎:

pip install "xinference[transformers]"

vLLM 引擎

vLLM 是一个支持高并发的高性能大模型推理引擎。当满足以下条件时,Xinference 会自动选择 vllm 作为引擎来达到更高的吞吐量:

pip install "xinference[vllm]"
  • 模型格式为 pytorch , gptq 或者 awq 。
  • 当模型格式为 pytorch 时,量化选项需为 none 。
  • 当模型格式为 awq 时,量化选项需为 Int4 。
  • 当模型格式为 gptq 时,量化选项需为 Int3 、 Int4 或者 Int8 。
  • 操作系统为 Linux 并且至少有一个支持 CUDA 的设备
  • 自定义模型的 model_family 字段和内置模型的 model_name 字段在 vLLM 的支持列表中。

点击查看现在支持的模型

Llama.cpp 引擎

Xinference 通过 llama-cpp-python 支持 gguf 和 ggml 格式的模型。建议根据当前使用的硬件手动安装依赖,从而获得最佳的加速效果。

pip install xinference
  • 不同硬件的安装方式

不同版本的python自己修改pippip3

Apple M系列
CMAKE_ARGS="-DLLAMA_METAL=on" pip3 install llama-cpp-python

英伟达显卡:
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip3 install llama-cpp-python

AMD 显卡:
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip3 install llama-cpp-python

SGLang 引擎

SGLang 具有基于 RadixAttention 的高性能推理运行时。它通过在多个调用之间自动重用KV缓存,显著加速了复杂 LLM 程序的执行。它还支持其他常见推理技术,如连续批处理和张量并行处理。

pip install 'xinference[sglang]'

MLX Backend

MLX-lm 用来在苹果 silicon 芯片上提供高效的 LLM 推理。

pip install 'xinference[mlx]'

启动

xinference-local --host 0.0.0.0 --port 9997

默认情况下,Xinference 会使用 /.xinference 作为主目录来存储一些必要的信息,比如日志文件和模型文件,其中 就是当前用户的主目录。

你可以通过配置环境变量 XINFERENCE_HOME 修改主目录, 比如:

XINFERENCE_HOME=/tmp/xinference xinference-local --host 0.0.0.0 --port 9997

可以通过访问 http://127.0.0.1:9997/ui 来使用 UI,访问 http://127.0.0.1:9997/docs 来查看 API 文档。

😁 作者:Teddy (公众号:码尚云软件)
ok!到这里就大功告成,小编(Teddy)在这里先感谢大家的到来。
虽然不是太详细,小编已经很努力,给小编来个一键三连(点赞,关注,收藏),小编会越来越努力。。。

### 部署 Ollama WebUI 到本地环境 为了在本地环境中成功部署 Ollama WebUI,需执行一系列操作来确保应用能够正常运行。 #### 获取项目源码 通过 Git 命令获取项目的最新版本是一个良好的开端。这可以通过下面的命令实现: ```bash git clone https://github.com/ollama-webui/ollama-webui-lite.git ``` 此命令会从 GitHub 上克隆仓库到当前目录下[^1]。 #### 安装依赖项 进入刚创建的文件夹并安装所需的软件包。通常情况下,`package.json` 或 `requirements.txt` 文件定义了这些需求。对于 Node.js 项目来说,可以使用 npm 或 yarn 来完成这项工作;如果是 Python,则可能需要用到 pip 工具。 假设这是一个基于 JavaScript 的前端应用程序,那么应该这样做: ```bash cd ollama-webui-lite npm install # 如果使用的是 Yarn, 替换为 'yarn' ``` #### 构建与启动服务 一旦所有的依赖都被正确加载之后,就可以构建生产版的应用程序,并将其托管在一个 HTTP(S)服务器上供访问。很多现代框架都自带开发模式下的简易HTTP服务器用于测试目的,在这种环境下可以直接利用它们快速预览效果而无需额外配置复杂的Web Server设置。 如果该项目支持简单的启动方式,比如通过脚本或内置命令,可尝试如下指令查看是否有可用选项: ```bash npm run start # 对于某些项目可能是 "serve", "dev" 等其他名称 ``` #### 测试连接 最后一步是在浏览器中打开指定端口地址(通常是 http://localhost:<port>/),验证页面能否顺利加载以及功能是否按预期运作。如果有任何错误提示,请参照官方文档中的故障排除部分寻找解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小码农吗

感谢您的大力支持,感谢感谢!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值