ChatGLM3在Docker环境部署(2)

最新推荐文章于 2024-08-30 00:32:11 发布

2401_84010901

最新推荐文章于 2024-08-30 00:32:11 发布

阅读量289

点赞数 4

分类专栏：程序员文章标签： docker 容器运维

本文链接：https://blog.csdn.net/2401_84010901/article/details/137459472

版权

程序员专栏收录该内容

233 篇文章 0 订阅

订阅专栏

FROM python:3.11.6

设置工作目录

WORKDIR /LLM

拷贝应用程序文件到容器中

COPY ./chatglm3-6b-32k/ /models/
COPY ./ChatGLM3/ /LLM/

安装支持

RUN pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/
RUN pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple


##### 2）打包生成镜像

docker build -t dmx:easy .


#### 3.启动容器

docker run --restart=always -itd --name dmxApp3 -p 8000:8000 -w /LLM --gpus device=2 dmx:easy python LLM_Server.py


### 4.查看运行日志

docker logs -t dmxApp3


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/9e77f8936d114673baae27cbb47203a6.png)


#### 5. LLM\_Server.py

from fastapi import FastAPI, Request
from fastapi.middleware.cors import CORSMiddleware
from transformers import AutoTokenizer, AutoModel
from utils import load_model_on_gpus
import uvicorn, json, datetime
import os

import torch

DEVICE = “cuda”
DEVICE_ID = “0”
CUDA_DEVICE = f"{DEVICE}:{DEVICE_ID}" if DEVICE_ID else DEVICE

def torch_gc():
if torch.cuda.is_available():
with torch.cuda.device(CUDA_DEVICE):
torch.cuda.empty_cache()
torch.cuda.ipc_collect()

app = FastAPI() # 创建API实例
app.add_middleware(
CORSMiddleware,
# 允许跨域的源列表，例如 [“http://www.example.org”] 等等，[““] 表示允许任何源
allow_origins=[””],
# 跨域请求是否支持 cookie，默认是 False，如果为 True，allow_origins 必须为具体的源，不可以是 [““]
allow_credentials=False,
# 允许跨域请求的 HTTP 方法列表，默认是 [“GET”]
allow_methods=[””],
# 允许跨域请求的 HTTP 请求头列表，默认是 []，可以使用 [““] 表示允许所有的请求头
# 当然 Accept、Accept-Language、Content-Language 以及 Content-Type 总之被允许的
allow_headers=[””],
# 可以被浏览器访问的响应头, 默认是 []，一般很少指定
# expose_headers=[“*”]
# 设定浏览器缓存 CORS 响应的最长时间，单位是秒。默认为 600，一般也很少指定
# max_age=1000
)

@app.post(“/”)
async def create_item(request: Request):
global model, tokenizer
json_post_raw = await request.json()
json_post = json.dumps(json_post_raw)
json_post_list = json.loads(json_post)
prompt = json_post_list.get(‘prompt’)
history = json_post_list.get(‘history’)
max_length = json_post_list.get(‘max_length’)
top_p = json_post_list.get(‘top_p’)
temperature = json_post_list.get(‘temperature’)
response, history = model.chat(tokenizer,
prompt,
history=history,
max_length=max_length if max_length else 32760,
top_p=top_p if top_p else 0.7,
#top_p=top_p if top_p else 0.1,
temperature=temperature if temperature else 0.95)
#temperature=temperature if temperature else 0.1)
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。