Xinference本地直接安装、打开、部署、测试模型、api调用

开心就好啦~

已于 2024-12-23 13:27:49 修改

阅读量4.4k

点赞数 3

文章标签： windows 文心一言

于 2024-12-21 01:21:59 首次发布

本文链接：https://blog.csdn.net/Zlzxzw/article/details/144622381

版权

一、Xinference是什么

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。

二、直接在windows上安装

入门指南 — Xinference

1、安装

卸载cmake3.31

安装cmake3.21

安装Xinference

pip 安装的包默认存储在C盘，后续可以考虑改一下默认的路径

修改xinference部署模型的存储路径：

2、打开

运行 xinference-local --host 127.0.0.1 --port 9997

打开http://127.0.0.1:9997/ui/#/launch_model/llm

三、部署模型

四、测试模型

点击action

测试模型时需要电脑之前已经配置过深度学习的环境，并在配置好的环境里安装xinference

Windows11配置深度学习环境-CSDN博客

测试结果：

五、测试api接口

import os
import openai
from dotenv import load_dotenv
load_dotenv()
os.environ["OPENAI_BASE_URL"] = "http://localhost:9997/v1"
os.environ["OPENAI_API_KEY"] = os.getenv('OPENAI_API_KEY')
client = openai.Client()

response = client.chat.completions.create(
        model="qwen2-vl-instruct",
        messages=[
            {
                "content": "最大的动物是什么?",
                "role": "user",
            }
        ],
        max_tokens=1024
    )
print(response)

带图片的问答：

import os
import openai
from dotenv import load_dotenv
load_dotenv()
os.environ["OPENAI_BASE_URL"] = "http://localhost:9997/v1"
os.environ["OPENAI_API_KEY"] = os.getenv('OPENAI_API_KEY')
client = openai.Client()

response = client.chat.completions.create(
    model="qwen2-vl-instruct",
    messages=[
            {
            "role": "user",
            "content":
                [
                {"type": "text", "text": "What's in this image?"},
                {
                    "type": "image_url",
                    "image_url":
                        {
                        "url": "https://bkimg.cdn.bcebos.com/pic/9358d109b3de9c82d158ba0d74d8970a19d8bd3ee5a2?x - bce - process = image / format, f_auto / resize, m_lfit, limit_1, h_951",
                       }
                },
                ],
            }
                ],
    max_tokens = 1024
)
print(response)