智谱ChatGLM3本地私有化部署(Linux)

智谱ChatGLM3本地私有化部署

1环境配置和检查

要进行智谱ChatGLM3本地私有化部署,你需要进行以下环境配置和检查:

  1. 硬件要求: 确保你的服务器或计算机满足智谱ChatGLM3的硬件要求,包括处理器、内存和存储等方面。

  2. 操作系统: 智谱ChatGLM3支持多种操作系统,如Linux、Windows和macOS等。选择适合你的操作系统,并确保它符合智谱ChatGLM3的要求。

  3. Python环境: 安装Python并配置相关环境。智谱ChatGLM3通常需要Python 3.10或更高版本。

  4. GPU支持: 如果你计划使用GPU进行模型训练和推理,你需要安装相应的GPU驱动和CUDA工具包,并确保你的GPU与智谱ChatGLM3兼容。

  5. 依赖库安装: 智谱ChatGLM3依赖于一些Python库,如TensorFlow、NumPy等。使用pip或conda等包管理工具,安装所需的依赖库。

  6. 模型下载: 下载智谱ChatGLM3的模型文件,这些文件包含了预训练好的模型参数和配置信息。

  7. 配置文件: 根据你的需求,修改智谱ChatGLM3的配置文件,包括模型路径、输入输出设置等。

  8. 测试和验证: 确保你的环境配置正确无误后,进行简单的测试和验证,确保智谱ChatGLM3可以正常运行。

请注意,智谱ChatGLM3的部署和配置可能会因个人需求和环境而有所差异。建议参考智谱ChatGLM3的官方文档或开发者指南,获取详细的部署步骤和配置说明。

1.1操作系统

ChatGLM3-6B理论上可以在任何主流的操作系统中运行。ChatGLM开发组已经为主流操作系统做了一定的适配。

但是,我们更推荐开发者在 Linux环境下运行我们的代码,以下说明也主要针对Linux系统。

1.2硬件环境

最低要求:

为了能够流畅运行 Int4 版本的 ChatGLM3-6B,我们在这里给出了最低的配置要求:

内存:>= 8GB

显存: >= 5GB(1060 6GB,2060 6GB)

为了能够流畅运行 FP16 版本的,ChatGLM3-6B,我们在这里给出了最低的配置要求:

内存:>= 16GB

显存: >= 13GB(4080 16GB)

Mac开发者无需关注GPU的限制。对于搭载了 Apple Silicon 或者 AMD GPU 的 Mac,可以使用 MPS 后端来在 GPU 上运行 ChatGLM3-6B。需要参考 Apple 的 官方说明 安装 PyTorch-Nightly(正确的版本号应该是2.x.x.dev2023xxxx,而不是 2.x.x)。

如果使用CPU加载,可以忽略显存的要求,但是速度非常慢

1.3软件环境

1.3.1Python环境&检查环境命令

请开发者按照仓库中的requirements.txt来安装对应的依赖,并需要注意:

python 版本推荐3.10.12

transformers 库版本推荐为 4.30.2

torch 推荐使用 2.0 及以上的版本,以获得最佳的推理性能

例如检查python环境:

  1. Python:python3.10 --version 或者 python3.10 -V

  1. Pip:pip3.10 --version 或者pip3.10 -V

  1. python与pip版本一致:python3.10 -m pip --version

正确如图:

错误如图:

2快速使用(推理部署)

2.1源码安装与运行

上述两种方案的目的是让更多的用户能够体验到我们的模型,但无法进行二次开发,如果您准备深度使用我们的模型,我们建议按照以下方式安装。

2.2克隆代码和模型

下载源码

模型基础运行代码已经上传到 github 和 SwanHub 两个平台,两个平台的信息同步。开发者通过以下方式下载模型代码。

从 github 下载源码

git clone https://github.com/THUDM/ChatGLM3.git

从 SwanHub 下载源码

git clone https://swanhub.co/ZhipuAI/ChatGLM3.git

开发者可以通过以下方式下载模型文件

下载模型

下载模型文件前请先确保`git lfs`命令已安装,安装教程请参考这里

模型文件已上传至 Huggingface, Modelsope , SwanHub 三个平台,用户可以快速安装模型。

若使用 Huggingface 下载模型

(1)windows安装命令:git lfs install

(2)Linux安装命令:

为您的系统配置 packagecloud 存储库后,您可以安装 Git LFS:

apt/deb:sudo apt-get install git-lfs

百胜/转数:sudo yum install git-lfs

查看版本:git lfs version

若使用 Modelscope 下载模型

git lfs install

git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

若使用 SwanHub 下载模型

git lfs install

git clone https://swanhub.co/ZhipuAI/chatglm3-6b.git

2.3检查文件的完整性

  1. 用户在下载完模型后请检查每个文件的完整性,以下是模型文件的sha256校验码。

# sha256 checksums for chatglm3-6b

4d5567466e89625dbd10e51c69a02982f233a10108cf232a379defdbb065ae0b pytorch_model-00001-of-00007.bin

4ad41534016ac4a2431fa2d4b08efbe28f963744135ec52b2ea13cc86730fa2a pytorch_model-00002-of-00007.bin

a2be9b17c332a8345e787953d4879caee4747ad4b263f013aa3c4654c94c3d24 pytorch_model-00003-of-00007.bin

b5526891e1b4c8edd2e3688df5156aa107e2140fe7e3f9d0d54f9cbe3b6ee3b5 pytorch_model-00004-of-00007.bin

84bb18a476f74beaf4d941733bd1c475791eba799b228f78d0165de989cb7a40 pytorch_model-00005-of-00007.bin

1181875a2dc30fba968d72d0fc4628b9a60d3866bf680eb14b9822b5b504830f pytorch_model-00006-of-00007.bin

1271b638dc0a88206d1c7a51bcaa862410eb56f3e59fd0068a96e96cb5e3f4f0 pytorch_model-00007-of-00007.bin

e7dc4c393423b76e4373e5157ddc34803a0189ba96b21ddbb40269d31468a6f2 tokenizer.model

# sha256 checksums for chatglm3-6b-32k

39aeddd81596b2d66d657687a7328ebc7f8850e8ea83fa74080da59f7d2f7afc pytorch_model-00001-of-00007.bin

2525475ea2d483ecc15a15ad4e016ee0155e628ac66f15cd54daa6c811193e92 pytorch_model-00002-of-00007.bin

faa1d884168a125af5105c4ee4c59fdac79f847b35a7389e0122a562995d34db pytorch_model-00003-of-00007.bin

66492c02ed13189202c7e46a121e308cf0ebbcf8141ecf3d551141aecfac7120 pytorch_model-00004-of-00007.bin

870bb2bb4a289b8ab37cce88f56e93381ff428063b3d0065994a3dd2e830cb32 pytorch_model-00005-of-00007.bin

a5f39ca17ba89e47e484d3b20d4ff78f4fb9b1b24bd3dfb314eff91ff6e37230 pytorch_model-00006-of-00007.bin

7c8a8f3e881202ac3a9ab2638ce30147f67d4bd799624c24af66406a6ba22db2 pytorch_model-00007-of-00007.bin

e7dc4c393423b76e4373e5157ddc34803a0189ba96b21ddbb40269d31468a6f2 tokenizer.model

# sha256 checksums for chatglm3-6b-base

b6a6388dae55b598efe76c704e7f017bd84e6f6213466b7686a8f8326f78ab05 pytorch_model-00001-of-00007.bin

2f96bef324acb5c3fe06b7a80f84272fe064d0327cbf14eddfae7af0d665a6ac pytorch_model-00002-of-00007.bin

2400101255213250d9df716f778b7d2325f2fa4a8acaedee788338fceee5b27e pytorch_model-00003-of-00007.bin

472567c1b0e448a19171fbb5b3dab5670426d0a5dfdfd2c3a87a60bb1f96037d pytorch_model-00004-of-00007.bin

ef2aea78fa386168958e5ba42ecf09cbb567ed3e77ce2be990d556b84081e2b9 pytorch_model-00005-of-00007.bin

35191adf21a1ab632c2b175fcbb6c27601150026cb1ed5d602938d825954526f pytorch_model-00006-of-00007.bin

b7cdaa9b8ed183284905c49d19bf42360037fdf2f95acb3093039d3c3a459261 pytorch_model-00007-of-00007.bin

e7dc4c393423b76e4373e5157ddc34803a0189ba96b21ddbb40269d31468a6f2 tokenizer.model

2.4安装依赖

pip 安装基本依赖
cd ChatGLM3

pip install -r requirements.txt

如果你担心你的配置不满足最低配置,你可以访问环境配置和检查获取更多信息。

Linux 环境安装cuda

问题描述:显卡的驱动环境没有

问题分析:购买GPU实例及安装驱动_GPU云服务器(EGS)-阿里云帮助中心

解决方案:升级gpu版本(已安装就卸载掉重新安装)

安装方法:

安装Tesla驱动(Linux)_GPU云服务器(EGS)-阿里云帮助中心

2.5运行openai_api_demo目录

启动API接口

1激活环境:conda activate xnenv

(2)进入目录:cd /home/chatglm/ChatGLM3/openai_api_demo

(3)启动应用:nohup python api_server.py > openai_api_demo.out &

主要有4个接口能用:

接口1-检查服务健康状态(get)http://127.0.0.1:8000/health

接口2-列出可用模型列表(get)http://127.0.0.1:8000/v1/models/

接口3-处理聊天完整请求(post)http://127.0.0.1:8000/v1/chat/completions

接口4-处理文本输入列表嵌入请求(get):http://192.168.0.129:8000/v1/chat/embeddings

总结:上面只是个人搭建的过程,更多请查看官方文档(

Docsicon-default.png?t=N7T8https://zhipu-ai.feishu.cn/wiki/WvQbwIJ9tiPAxGk8ywDck6yfnof

<think>嗯,用户问的是如何在群晖NAS上私有化部署DeepSeek大模型。首先,我得确定DeepSeek大模型的具体情况,因为不同的模型可能有不同的部署方式。比如像LLaMA或者Alpaca这样的模型,通常需要特定的框架支持,比如Hugging Face的Transformers或者使用llama.cpp这样的工具。但用户提到的是DeepSeek,可能是一个特定的模型,我需要先确认这个模型的开源情况以及支持的推理框架。 接下来,群晖NAS的硬件配置是关键。大模型通常需要较强的GPU支持,但大多数家用群晖设备可能只有CPU,没有独立显卡。这样的话,部署像7B或13B参数的模型可能会比较吃力,推理速度会很慢。用户可能需要考虑模型量化,比如使用llama.cpp的GGUF格式,或者用Transformers的int8量化来减少内存占用。 然后是软件环境。群晖NAS通常运行的是基于Linux的系统,但可能没有直接的root访问权限,或者需要套件中心来安装软件。比如,用户可能需要通过Docker来部署,因为群晖支持Docker套件。这时候需要准备一个包含CUDA支持的Docker镜像(如果有GPU的话),或者仅使用CPU的基础镜像。 另外,模型文件的获取也是一个问题。用户需要从合法的渠道下载DeepSeek的模型权重,可能需要申请权限或者遵守特定的开源协议。下载后,如何将模型文件放入NAS的存储目录,并确保Docker容器能正确访问到这些路径。 接下来是具体的部署步骤。比如,使用Docker运行一个文本生成的Web界面,比如oobabooga的text-generation-webui,或者使用简化版的llama.cpp的server。需要编写或获取相应的Dockerfile,配置端口映射,挂载卷,设置环境变量等。 可能还需要考虑性能优化,比如调整线程数、批处理大小,或者开启量化来降低资源消耗。同时,安全方面的问题,比如是否需要设置访问权限,防止NAS上的服务被外部访问。 用户可能的实际使用场景是什么?他们可能希望有一个本地化的AI助手,处理文本生成、问答或者其他任务,同时保证数据隐私。所以私有化部署是关键,确保数据不离开本地NAS。 此外,用户的技术水平可能参差不齐,所以步骤需要尽量详细,避免使用太多专业术语,或者提供不同的方法,比如使用Docker还是直接安装Python环境,或者使用现有的群晖套件(如果有的话)。 最后,验证部署是否成功,比如通过curl测试API,或者访问Web界面进行交互。同时提醒用户注意模型的硬件要求,如果NAS性能不足,可能需要升级硬件或选择更小的模型版本。</think>在群晖NAS中私有化部署大模型(如DeepSeek或其他开源模型)需要结合硬件性能、软件环境和具体模型要求。以下是一个通用部署流程,以 **CPU/GPU混合环境** 为例,针对中文场景优化: --- ### **一、准备工作** 1. **确认硬件配置** - **最低要求**:x86架构群晖(DSM 7.0+),4核CPU,8GB内存(仅支持小模型如 1.3B-7B 参数)。 - **推荐配置**:带有NVIDIA显卡的群晖(如部分XS/XS+型号),16GB+内存,SSD缓存加速。 2. **获取模型文件** - 从官方渠道下载DeepSeek模型(如Hugging Face或官方GitHub),确保格式为 `.bin` (GGML) 或 `.safetensors`。 - 若需中文优化,可选择类似`Chinese-LLaMA-Alpaca`等社区优化版本。 --- ### **二、部署方式(推荐Docker)** #### **方法1:使用`text-generation-webui`(可视化界面)** ```bash # 通过群晖Docker套件操作 1. 拉取镜像:选择`oobabooga/text-generation-webui`官方镜像。 2. 配置容器: - 挂载模型目录:`/models` ➔ NAS中的模型文件夹(如`/docker/llm/models`) - 端口映射:7860(Web UI)、5000(API) 3. 环境变量: - `CLI_ARGS=--model deepseek-7b --cpu` (纯CPU模式) - 若有GPU:`CLI_ARGS=--model deepseek-7b --auto-devices` 4. 启动后访问:http://群晖IP:7860 ``` #### **方法2:使用`llama.cpp`(轻量CPU优化)** ```bash 1. 通过SSH登录群晖,安装基础依赖: sudo apt-get update && sudo apt-get install build-essential 2. 编译llama.cpp: git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make 3. 转换模型为GGUF格式(需提前下载): python3 convert.py --input-model /path/to/deepseek --output-gguf /output/ggml-model-f16.gguf 4. 量化模型(节省内存): ./quantize ggml-model-f16.gguf ggml-model-q4_0.gguf q4_0 5. 启动API服务: ./server -m ggml-model-q4_0.gguf -c 2048 --port 8080 ``` --- ### **三、中文优化技巧** 1. **模型选择** - 优先选择已针对中文优化的模型(如`DeepSeek-Chat`或`ChatGLM3`)。 2. **提示词模板** - 使用中文系统提示词(如“你是一个由DeepSeek开发的中文AI助手”)。 3. **性能调优** - CPU模式:设置`--threads`参数为物理核心数(如4核CPU设为4)。 - GPU加速(仅限支持型号):添加`--n-gpu-layers 20`加载部分层到显卡。 --- ### **四、常见问题** - **内存不足**:尝试量化模型(如Q4_K_M)或使用更小模型(如Phi-3-mini)。 - **速度慢**:启用群晖SSD缓存,或通过API异步调用。 - **无显卡支持**:使用`llama.cpp`或`mlc-llm`等CPU优化框架。 --- ### **五、进阶方案** - **集成至群晖服务**:通过反向代理(Nginx)绑定域名,搭配群晖SSL证书启用HTTPS。 - **结合本地应用**:使用Synology Drive同步模型文件,或通过Webhook对接ChatBot。 部署完成后,可通过`curl http://localhost:5000/api/v1/generate -d &#39;{"prompt":"你好"}&#39;`测试API,或直接在Web界面交互。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

正在走向自律

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值