搭建一个大模型API服务

搭建一个大模型API服务

本文将介绍如何使用SWIFT框架搭建一个大模型API服务,以方便后续做RAG、Agent的开发工作。

环境准备

基础环境

  • 操作系统:Ubuntu 18.04.5 LTS (GNU/Linux 3.10.0-1127.el7.x86_64 x86_64)
  • Anaconda3:Anaconda3-2023.03-1-Linux-x86_64
  • 根据服务器网络情况配置好conda源和pip源,此处使用的是超算山河源

创建一个新的conda环境:

conda create --name swift python=3.8

激活刚刚创建的conda环境:

conda activate swift

下载SWIFT源码(v1.6.1):

git clone https://github.com/modelscope/swift.git

切换到SWIFT路径:

cd /yldm0226/swift

安装SWIFT:

pip install -e .[llm]

检查服务器cuda版本是否与当前安装的pytorch对应,如果不对应,需要将pytorch版本降低到≤服务器cuda版本;使用nvidia-smi查看cuda版本:

当前cuda版本为11.7; 然后使用conda list检查swift环境中pytorch的版本:

pytorch版本为2.2.0,从官网查询可知2.2.0版本最低支持的cuda版本为11.8,这大于服务器cuda版本11.7,因此需要将pytorch降低到支持cuda11.7的版本,从官网查询可知目前最高的可支持cuda11.7的版本为2.0.1。执行下述命令更换pytorch版本:

pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2

注:如果pytorch版本与服务器cuda版本不对应,程序不会报错,而是会输出下面的警告,此时SWIFT会将模型权重加载到CPU上。推理速度非常慢:

UserWarning: CUDA initialization: The NVIDIA driver on your system is too old (found version 11070). Please update your GPU driver by downloading and installing a new version from the URL: http://www.nvidia.com/Download/index.aspx Alternatively, go to: https://pytorch.org to install a PyTorch version that has been compiled with your version of the CUDA driver. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:108.)

将大模型权重下载到本地,可以在ModelScopeHuggingFace选择对应模型下载,这里以Qwen1.5-14B-Chat为例:

git clone https://www.modelscope.cn/qwen/Qwen1.5-14B-Chat.git

搭建API服务

启动服务端

单卡部署
CUDA_VISIBLE_DEVICES=0 swift deploy --model_type qwen1half-14b-chat --model_id_or_path /yldm0226/models/Qwen1.5-14B-Chat

CUDA_VISIBLE_DEVICES可以指定使用哪块GPU进行部署;model_type表示你选择的模型类型,类型需是SWIFT框架支持的模型种类的一种,可以在此处查询所有支持的模型;–model_id_or_path表示模型在ModelScope Hub中的model_id或者本地路径,当指定本地路径时,代码会优先加载本地路径中的模型权重。

部署成功后,可以看到以下输出:

INFO:     Started server process [82478]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)

多卡部署
RAY_memory_monitor_refresh_ms=0 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 swift deploy --model_type qwen1half-14b-chat --model_id_or_path /yldm0226/models/Qwen1.5-14B-Chat --tensor_parallel_size 8

同样的,在部署成功后可以看到以下输出:

INFO:     Started server process [100001]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)

可以通过nvidia-smi命令查看多卡部署的显存占用情况:

客户端测试

curl

想要快速测试API的可用性,可以使用curl:

curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen1half-14b-chat",
"messages": [{"role": "user", "content": "请介绍一下API服务"}],
"max_tokens": 1024,
"temperature": 0
}'

model与部署时的model_type一致。

可以得到下面形式的响应:

{"model":"qwen1half-14b-chat","choices":[{"index":0,"message":{"role":"assistant","content":"API(Application Programming Interface,应用程序编程接口)服务是一种接口,它允许不同的软件应用程序之间进行交互和数据共享。API是一组预定义的规则、协议和工具,开发者可以使用它来调用或访问某个应用程序、平台或服务的功能,而无需了解其底层实现细节。简单来说,它就像一个“桥梁”,使得开发者能够编写自己的程序,通过这个接口来获取数据、执行操作或者触发特定功能。\n\nAPI服务通常分为以下几种类型:\n\n1. **Web API**:基于HTTP协议,用于Web应用间的通信,如RESTful API,它以HTTP请求(GET、POST、PUT、DELETE等)的形式发送数据。\n\n2. **SDK API**:软件开发工具包(Software Development Kit)中的API,提供了特定平台或服务的编程接口,如Google Maps API、Facebook API等。\n\n3. **企业级API**:企业内部或外部提供的API,用于内部系统集成,如CRM系统API、支付API等。\n\n4. **机器学习/AI API**:如Google Cloud的机器学习API,允许开发者使用预训练模型进行预测或处理任务。\n\n5. **API Gateway**:一种服务,它集中管理多个API,提供安全、路由、缓存等功能,如AWS API Gateway。\n\n通过API服务,开发者可以快速地扩展功能、集成第三方服务,提高开发效率,同时促进了软件生态系统的繁荣。"},"finish_reason":null}],"usage":{"prompt_tokens":23,"completion_tokens":294,"total_tokens":317},"id":"chatcmpl-f7fa52fbf7de45f1bc1a31e369482a19","object":"chat.completion","created":1709258739}

swift

也可以使用swift框架去编写客户端代码,下面是一个简单的示例:

from swift.llm import get_model_list_client, XRequestConfig, inference_client

model_list = get_model_list_client()
model_type = model_list.data[0].id
print(f'model_type: {model_type}')

# 直接输出
query = '山东的省会在哪里?'
request_config = XRequestConfig(seed=42)
resp = inference_client(model_type, query, request_config=request_config)
response = resp.choices[0].message.content
print(f'query: {query}')
print(f'response: {response}')

# 流式输出
history = [(query, response)]
query = '这有什么好吃的?'
request_config = XRequestConfig(stream=True, seed=42)
stream_resp = inference_client(model_type, query, history, request_config=request_config)
print(f'query: {query}')
print('response: ', end='')
for chunk in stream_resp:
    print(chunk.choices[0].delta.content, end='', flush=True)
print()

第一个问题’山东的省会在哪里?'使用的是直接返回response的方式,第二个问题’这有什么好吃的?'使用的是流式输出的方式,可以根据需要选择对应的方式。

运行程序,可以得到以下输出:

query: 山东的省会在哪里?
response: 山东省的省会是济南。
query: 这有什么好吃的?
response: 山东作为中国的一个大省,美食丰富多样,这里有许多著名的特色菜肴和小吃。以下是一些你可能会感兴趣的:

1. 热干面(不是山东本地的,但济南也有人喜欢):源于武汉,但在山东也有类似面食。
2. 鲁菜:山东菜系,以济南菜为代表,如糖醋黄河鲤鱼、九转大肠、葱烧海参、锅包肉等,口味偏重,讲究原汁原味。
3. 烤鸭:虽然以北京最有名,但山东济南的烤鸭店也有特色。
4. 鲅鱼水饺:山东沿海城市如青岛的特色,用新鲜鲅鱼做馅,鲜美可口。
5. 豆腐脑:搭配薄饼、香菜、榨菜,是早餐的常见选择。
6. 煎饼:山东大煎饼,尤其是临沂煎饼,薄脆可卷各种食材。
7. 油旋:济南特色小吃,类似油条但更细,酥脆可口。

这只是冰山一角,山东各地还有许多其他美食,如鲁西南驴肉火烧、莱阳梨、胶东海鲜等,去山东旅行不妨尝试一下。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

五、面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

  • 29
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值