Centos上用Xinference部署大模型!

创建单独环境:

conda create -n xinference python=3.10

安装前需要配置gcc:

centos:

yum install centos-release-scl && yum install devtoolset-11-gcc* && scl enable devtoolset-11 bash && gcc -v

ubuntu:

sudo apt update
sudo apt install build-essential

可能会报错:

Reading package lists... Done Building dependency tree        Reading state information... Done build-essential is already the newest version (12.8ubuntu1.1). 0 upgraded, 0 newly installed, 0 to remove and 248 not upgraded.

就是没有更新APT库
更新一下就好了

sudo apt-get update
sudo apt-get upgrade

或将python版本降低至3.8. 

Xinference 安装(下载时间很长耐心等待): 

pip install "xinference[all]"

 安装成功!

启动服务:

XINFERENCE_HOME=/home/xuhui/tmp/xinference:

通过配置环境变量来更改模型下载目录

XINFERENCE_MODEL_SRC=modelscope:

设置从从 modelscope 下载模型 因为默认从  Hugging Face 下载模型 服务器没有设置代理的话会失败!

xinference-local:

启动命令

--host 0.0.0.0 --port 9997 :

设置本地ip及端口号

XINFERENCE_HOME=/home/xuhui/tmp/xinference XINFERENCE_MODEL_SRC=modelscope xinference-local --host 0.0.0.0 --port 9997

服务启动成功!

另开端口执行模型下载启动命令:

xinference launch --model-name chatglm3 --size-in-billions 6 --model-format ggmlv3 --quantization q4_0 --model-engine llama.cpp

 开始下载模型!

下载完成!

调用测试成功!

from xinference.client import RESTfulClient

client = RESTfulClient("http://127.0.0.1:9997")
model = client.get_model("chatglm3")
print(model.generate(
    prompt="What is the largest animal?",
    generate_config={
      "max_tokens": 512,
      "temperature": 0.7
    }
))

至此模型已完全部署成功,后面可以调用api,或仿open风格api都可调用!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值