ChatGLM3-6b-必知必会的大模型部署案例

AI-椰子不椰

已于 2024-07-09 17:53:24 修改

阅读量1k

点赞数 18

文章标签： python 开发语言人工智能 prompt 语言模型深度学习机器学习

于 2024-05-31 19:36:06 首次发布

本文链接：https://blog.csdn.net/2401_85343303/article/details/139359950

版权

前言

你想要应用大模型，不会部署大模型那怎么能行？想要应用大模型，但是又不知道该如何下手？很多做技术的朋友一直对大模型应用跃跃欲试，大家也不想单单期望聚焦在指令应用阶段，还是想深度应用，我建议你可以分阶段深入，毕竟学习得有个循序渐进，不能一蹴而就。本篇文章我将聚焦在模型部署应用，希望对你有帮助！！！

本篇文章聚焦在我在本地Windows环境下部署ChatGLM3-6b-32k的实操过程，分享我这次的操作过程还有模型部署的经验，当然还有遇到的坑。我就直接把整个过程写清楚，同时把问题和怎么处理的也一并输出。话不多说，接下来我们看看具体的操作。

一、环境准备环节

我们首先得保证我们有Python环境，这个是必不可少的，你可以按照我的方式进行安装，当然你如果有Python环境配置了，这部分可以跳过。

去清华镜像源里面下载anaconda，网址我这里给出来了，去上面下载安装好就行：

清华大学开源软件镜像站 | Tsinghua Open Source Mirror
mirrors.tuna.tsinghua.edu.cn/

利用anaconda创建两个python解释器，一个是python3.9，一个是python3.10，这里我建议使用pycharm里面右下角的解释器管理栏去创建新的python环境，因为可视化界面好操作些。
在这里插入图片描述

具体的操作步骤如下：

1. 点击加号添加新的解释器：点击右上角的齿轮图标，选择 “Add…”。

2. 选择 Conda 环境：在弹出窗口中，选择 “Conda” 选项卡，然后选择 “Existing environment”。在 “Interpreter”(解释器) 栏中，选择已安装的 Conda 解释器，或者选择 “New environment using:” 并选择你的 Anaconda 安装路径。

在这里插入图片描述

3. 配置 Python 版本和包：在 “Conda executable” 栏中选择 Conda 的可执行文件路径，然后在 “Python interpreter” 栏中选择要使用的 Python 版本。

4. 点击 “OK” 完成设置：在完成所有配置后，点击 “OK” 保存设置。

如果你想要命令操作也是可以实现的，具体的操作如下

打开 Anaconda Prompt：在开始菜单中找到 Anaconda Prompt（或者直接在搜索栏中输入 Anaconda Prompt）并打开它。(直接在终端上运行也是可以的，也就是Win+R，然后回车)
创建新的环境：

例如创建一个 Python 3.9 的环境，可以执行（这里就是创建了一个名为ChatGLM3_3.9 的python3.9环境）：

conda create –name ChatGLM3_3.9 python=3.9
3. 激活环境:创建环境后，使用以下命令激活：

conda activate ChatGLM3_3.9
你会看到命令行的前缀变为 ( ChatGLM3_3.9 )，表示现在在 ChatGLM3_3.9 环境中。

验证 Python 版本：环境激活后，可以运行以下命令验证 Python 版本：

python --version
确保显示的 Python 版本是对应的版本。

如果要返回默认的环境就执行conda deactivate 命令。这就完成了环境的准备工作！！！

二、克隆项目的模型文件

第一步、切换到自己的项目文件路经，说白了就是创建一个项目空间。

这里可以利用到的三个命令：“D:”、“dir”和“cd”

这里的“dir”意思是：显示当前路径的文件夹以及文件
这里的“D:”意思是：切换到对应的盘符
这里的“cd”意思是：切换到对应的文件路径内
注意：cd切换不了盘符

第二步、进行模型源码下载

第一条命令是打开大文件传输，如果不打开将会克隆失败。

第二个是开始克隆模型文件，大概需要几十分钟，如果网速快的十几分钟……，耐心等待一下。

具体的实现如下：

git lfs install
git clone https://huggingface.co/THUDM/chatglm3-6b-32k

第三步、克隆demo项目代码

接下来我们就开始克隆项目，终端输入：

git clone https://github.com/THUDM/ChatGLM3.git
这里的项目是一些官方的demo代码。

第四步、选择解释器版本，安装依赖

cli_demo.py是终端对话版本的demo代码，这里我们使用python3.9运行。

在PyCharm中选择python3.9解释器，如果选择过，这一步忽略
在pycharm终端下切换到对应的项目路径
执行命令：pip install -r requirements.txt是一个命令，用于从文本文件requirements.txt中安装所需的 Python 包。
pip install -r requirements.txt

第五步、修改源代码

cli_demo.py这里，我们主要修改两个地方，他们是相邻的，加载的路径是官方自己设定的,如果在没有修改加载模型的路径前直接运行，那么程序就会自动到hugging face上面下载到系统盘里面，所以我们这里需要修改模型文件的加载路径。

具体要修改的地方在这里：
在这里插入图片描述

将原来的路径“THUDM/chatglm3-6b-32k”修改成自己的路径就好，就比如我这上面的路径就是修改完成之后的。

这里需要注意，Windows系统下的路径是反斜杠，所以需要在路径的前面加上一个“r”。

注意：我这里是使用CPU跑的模型，就像图片上显示的，如果是使用GPU就默认即可(前提是cuda已经安装完成)，原来的文件是没有将CPU跑的代码写上去的，默认就是GPU。

第六步、修改网页Demo

这里的文件是web_demo.py。

和上面一样，这里只需要修改加载的模型路径，以CPU还是GPU运行，也是和上面一样。

注意：在运行这代码之前我们别忘了前面为什么要创建两个python解释器，这里就是需要用到python3.10的解释器。

在我们切换解释器后，也不要忘记安装依赖，因为每一个解释器的依赖包都是相互独立的，所以还需要重新安装一遍依赖包。

如果忘了就回上面看……

接下来我们就启动程序，具体的启动命令如下，直接在终端输入即可：

python cli_demo.py
python: 这是启动Python解释器的命令。
cli_demo.py: 这是要运行的Python脚本的文件名
修改完后，我们来试试启动代码，首先试试终端对话的demo。

也可以在终端输入：python cli_demo.py

服务器应该有GPU,那时候直接就改改代码，然后用GPU跑就好……

下面是效果：

我这里跑的32k的版本，跑其他的版本大概也差不多，只是随着上下文长度增加内存占用也会增加。

我这里因为开了太多的后台任务，内存直接溢出了，所以报错了，关掉一些后台任务后就可以推理了。

速度还凑合，还能看，大概是1秒一个字，或者更低……

来看一下释放后的内存占用，我这里是接近21G：

跑起来的时候需要占用到47G左右，这样一算，大概占用28G的内存。但是，加载模型文件的时候是需要更多的内存的，大概最高的时候需要用到30G多一些，最高的时候就是即将加载完模型的时候（95%-100%之间），加载完成后内存占用会稍微有一些下降，大概是在2～3G。

接下来针对web_demo.py，来运行代码，直接在终端中输入：

python web_demo.py

具体的执行效果如下：

还有其他的demo就不一一跑了，大概的步骤都是相似的……，唯一需要注意的是web_demo2.py运行的时候是需要在终端输入：

streamlit run app.py

那么，我们该如何学习大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线

学习大型人工智能模型，如GPT-3、BERT或任何其他先进的神经网络模型，需要系统的方法和持续的努力。既然要系统的学习大模型，那么学习路线是必不可少的，下面的这份路线能帮助你快速梳理知识，形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别：AI大模型API应用开发工程

L3级别：大模型应用架构进阶实践

L4级别：大模型微调与私有化部署

一般掌握到第四个级别，市场上大多数岗位都是可以胜任，但要还不是天花板，天花板级别要求更加严格，对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。