AI智能体研发之路-工程篇（四）：大模型推理服务框架Xinference一键部署

菜鸟大模型

于 2024-09-18 11:15:00 发布

阅读量436

点赞数 6

文章标签：人工智能自然语言处理 chatgpt ai大模型 Agent LLM

本文链接：https://blog.csdn.net/huang9604/article/details/142252340

版权

一.引言

大语言模型推理服务框架—Ollama介绍了Ollama，Ollama以出色的设计一行命令完成推理框架部署，一行命令完成大模型部署，模型的下载不依赖梯子，速度非常快，大幅提升模型部署效率，同时，当有多卡GPU时，Ollama可以自动将模型分片到各个GPU上，博主使用V100显卡（单卡32G显存）部署llama3 70B（预计需要40G显存），自动完成了显存分配。

今天来介绍一下Xinference，与Ollama比较，Xinference自带Webui与用户交互更加友好，只需点一下所需要的模型，自动完成部署，同时，Xinference在启动时可以指定Modelscope社区下载模型，对于无法登陆抱抱脸的伙伴，可以大幅提升模型下载效率。

这里还是想说两句，大模型领域，美帝目前确实是领先的，我们能做的只能是努力追赶，但在追赶的过程中发现，好多优秀的大模型领域开源项目，都是默认配置hugging face的，一方面是下载模型时间甚至超过了熟悉项目本身，另一方面是压根连不上导致项目跑不起来，导致在这片土地上水土不服。当然对在这片热土上生存的企业及工程师，可能学习门槛的提升，也是一件好事，天热的技术护城河哈哈

二.一行代码完成Xinference本地部署

docker run -it --name xinference -d -p 9997:9997 -e XINFERENCE_MODEL_SRC=modelscope -e XINFERENCE_HOME=/workspace -v /yourworkspace/Xinference:/workspace  --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0

docker run -it：启动docker容器并在内部使用终端交互
–name xinference：指定docker容器名字为xinference，如不设置随机生成
-d：后台运行，如果不设置会进入到docker容器内
-p：9997:9997，宿主机端口:docker容器端口
-e XINFERENCE_MODEL_SRC=modelscope：指定模型源为modelscope，默认为hf
-e XINFERENCE_HOME=/workspace：指定docker容器内部xinference的根目录
-v /yourworkspace/Xinference:/workspace：指定本地目录与docker容器内xinference根目录进行映射
–gpus all：开放宿主机全部GPU给container使用
xprobe/xinference:latest：拉取dockerhub内xprobe发行商xinference项目的最新版本
xinference-local -H 0.0.0.0：container部署完成后执行该命令

三.两行代码完成Xinference分布式部署

master部署：

docker run -it --name xinference-master -d -p 9997:9997 -e XINFERENCE_MODEL_SRC=modelscope -e XINFERENCE_HOME=/workspace -v /yourworkspace/Xinference:/workspace  --gpus all xprobe/xinference:latest xinference-supervisor -H "${master_host}"

work部署：

docker run -it --name xinference-worker -d -p 16500:16500 -e XINFERENCE_MODEL_SRC=modelscope -e XINFERENCE_HOME=/workspace -v /yourworkspace/Xinference:/workspace  -e "http://${supervisor_host}:9997" -H "${worker_host}"

四.开箱即用webui

浏览器打开：http://123.123.123.123:9997/ui/#/launch_model/llm

1.Launch Model

启动模型，包含语言模型、图片模型、语音模型、自定义模型，提供了模型搜索框，基本主流模型都已经收录。

在这里插入图片描述

以qwen1.5为例，搜索qwen1.5选择chat版本：

在这里插入图片描述

Model Format（模型格式）：包含pytorch、gptq、awq、ggufv2等
Model Size（模型尺寸）：包含0.5B～110B全尺寸模型，
Quantization（模型量化）：包含4位、8位、不量化等
N-GPU（使用GPU数）：可以自动或手动选择使用GPU数
Replica（副本数量）：提供服务的副本数量

点击下面的小火箭，发射（启动）模型模型，会去modelscope上自动下载模型并启动

2.Running Models

模型下载启动后，在Running Models内可查看，可以点击Actions下面的窗口弹出测试UI

在这里插入图片描述

ID：模型id，后面在调用的时候会用到
Name：模型name，后面在调用的时候会用到
Address：模型部署的container端口，后面只会用到宿主机的地址和端口，container状态下后面不需要
GPU Indexes：GPU索引，Xinference框架会自动根据GPU资源情况切分模型部署在多张卡上
Size，Quantization：模型尺寸与量化位数

2.1测试qwen1.5-chat

在这里插入图片描述

2.2模型存储路径

在启动docker container时，指定了container根目录并且指定了宿主机关联路径：

-e XINFERENCE_HOME=/workspace
-v /yourworkspace/Xinference:/workspace

这样不用登陆container在宿主机本地也可以查看下载到的模型

3.Register Model

你也可以注册自己下载或微调后的模型：

在这里插入图片描述

只需要配置模型名、模型格式、上下文长度、模型尺寸、模型路径等

注册完成后在Launch Model — Custom Models 内启动即可。

4.Cluster Information

这里会展示集群Supervisor节点和worker节点的数量以及具体CPU、GPU使用情况，方便管理。

五.模型使用

参考上一篇Ollama，我们可以使用curl或者dify平台调用Xinference部署的推理服务，

DIFY：只需要配置模型名称、服务器URL、模型UID，其中模型名称和模型UID在Running Models列表中可以查到，服务器URL是http://宿主机host:port。记得带http://否则会报错。

在这里插入图片描述

CURL：

与OpenAI一样的post请求：

curl -X 'POST' \
  'http://123.123.123.123:9997/v1/chat/completions' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "qwen1.5-chat",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "What is the largest animal?"
        }
    ]
  }'

{"id":"chatd9e11eea-0c57-11ef-b2c7-0242ac110003","object":"chat.completion","created":1715075692,"model":"qwen1.5-chat","choices":[{"index":0,"message":{"role":"assistant","content":"The largest animal on Earth is the blue whale (Balaenoptera musculus). Adult blue whales can grow up to lengths of around 98 feet (30 meters) and can weigh as much as 200 tons (180 metric tonnes). They are marine mammals found in all major oceans, primarily in the Antarctic and Sub-Antarctic waters. Their size is a result of their filter-feeding lifestyle; they feed on large quantities of small shrimp-like creatures called krill, rather than needing to hunt larger prey."},"finish_reason":"stop"}],"usage":{"prompt_tokens":25,"completion_tokens":111,"total_tokens":136}}

OpenAI兼容的API：

Xinference 提供了与 OpenAI 兼容的 API，所以可以将 Xinference 运行的模型直接对 OpenAI模型进行替代

from openai import OpenAI
client = OpenAI(base_url="http://123.123.123.123:9997/v1", api_key="not used actually")
 
response = client.chat.completions.create(
    model="qwen1.5-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is the largest animal?"}
    ]
)
print(response)

六.总结

本文简要讲述了一行代码完成Xinference本地部署以及两行代码完成Xinference分布式部署以及webui和接口调用，其中快捷部署、极为友好的webui、可配modelscope以及提供兼容OpenAI的API等诸多优点，实属良心之作。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望