服务器环境:
显卡驱动:Driver Version: 530.30.02
CUDA版本:CUDA Version: 12.1
显卡:NVIDIA GeForce RTX 3090共4张
注意:最好把显卡驱动升级到530,CUDA版本之前使用11.7有问题。
一、创建目录结构
创建文件夹llms_chatglm3
llms_chatglm3下创建文件夹glm3
将ChatGLM3/openai_api_demo at main · THUDM/ChatGLM3 (github.com)
下的代码放在glm3文件夹中
同时将THUDM/ChatGLM3: ChatGLM3 series: Open Bilingual Chat LLMs | 开源双语对话语言模型 (github.com)
下的 requirements.txt也放在glm3目录下。
二、下载chatglm3-6b模型
pip install -U huggingface_hub
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download THUDM/chatglm3-6b --local-dir chatglm3-6b
三、下载bge-large-zh-v1.5模型
和第二步同理。
四、创建docker-compose
llms_chatglm3目录下创建docker-compose.yml,此时的目录结构如下
docker-compose.yml内容如下:
version: "3.6"
services:
glm3_api:
image: python:3.10.13-slim
restart: unless-stopped
working_dir: /glm3
container_name: glm3_api
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: 2
capabilities: [gpu]
environment:
- MODEL_PATH=/models/chatglm3-6b
- EMBEDDING_PATH=/models/bge-large-zh-v1.5
- TZ=Asia/Shanghai
- PYTHONDONTWRITEBYTECODE=1
- PYTHONUNBUFFERED=1
- DOCKER=True
ports:
- 8002:8000
volumes:
- ./glm3:/glm3
- ./chatglm3-6b:/models/chatglm3-6b
- ./bge-large-zh-v1.5:/models/bge-large-zh-v1.5
command:
- sh
- -c
- |
python -m pip install -i https://mirrors.aliyun.com/pypi/simple --upgrade pip
pip install -r /glm3/requirements.txt -i https://mirrors.aliyun.com/pypi/simple
python api_server.py
networks:
general:
external: true
五、启动测试容器
docker compose up
启动后,执行:
docker exec -i glm3_api python openai_api_request.py
如果出现一段故事,那么说明部署成功。