从零开始的ChatGLM 配置详细教程

最新推荐文章于 2025-04-04 20:26:18 发布

人工智能MOS

最新推荐文章于 2025-04-04 20:26:18 发布

阅读量1.1k

点赞数 21

文章标签： LLM 人工智能自然语言处理大模型 RAG chatglm ai大模型

本文链接：https://blog.csdn.net/2301_81887304/article/details/142254324

版权

一，前言

最近安装了一下叶佬的一键安装包总感觉，没有被bug虐浑身不舒服遂，去github上重新git clone了官方的下来并部署玩玩。

二，环境配置

1、下载ChatGLM项目

官方地址：https://github.com/THUDM/ChatGLM-6B

2、配置程序运行环境

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注：在这里，torch需要用whl手动下载GPU版本，不然多半会寄
下载方法可以参考这个博客：从零开始下载torch+cu（无痛版）

三、在HuggingFace下载chatGLM-6B模型

1，安装 Git Lfs

注：安装Git Lfs之前需要安装Git窝，还没有安装的可以参考这个教程：Git的安装教程
Git Lfs地址：https://git-lfs.com/
在这里插入图片描述

Git Lfs的安装也没啥要注意的，NextNext一路默认就好

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

人工智能MOS

关注关注

21
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从零开始大模型开发与微调：PyTorch 2.0中的模块工具

AI天才研究院

08-24

509

从零开始大模型开发与微调：PyTorch 2.0中的模块工具 1. 背景介绍 1.1 问题的由来在深度学习领域，构建和训练大规模神经网络模型已成为研究和应用的核心。随着数据集的增大以及任务复杂度的提升，开发高效、灵活

chatGLM介绍

沧海之巅的专栏

09-07

849

ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，可以在消费级的显卡上运行。

参与评论您还未登录，请先登录后发表或查看评论

2024年echarts饼图如何去掉指示线指示文字_echarts饼图去掉标签，面试必备

2401_85012069的博客

05-14

1443

legend: {data: []},series : [name: ‘访问来源’,label: {normal: {},data:[{value:335, name:‘直接访问’},{value:310, name:‘邮件营销’},{value:234, name:‘联盟广告’},{value:135, name:‘视频广告’},{value:1548, name:‘搜索引擎’}],},

从零开始的ChatGLM教程（一）

04-15

2037

主流的老旧专业卡包括K80，M40（24G版）（下文简称M40），P40，P100等，其中P100具有半精度浮点计算能力，这可以使它的训练或推理速度更快，不过它的显存只有16G，还请自行取舍。本篇文章将真正意义上的从头教学，从装机开始教你组建自己的机器并训练自己的模型。ChatGLM（以及其他语言模型）并不强制性的需要你使用GPU进行运算，如果你的电脑大于32G，而你又没有心仪的显卡选择，你可以考虑试试使用CPU进行运算，据说速度会慢，但好处是在这篇文章编写的时候，内存可比显存便宜多了。

LLM主流开源大模型

2301_79356999的博客

04-04

998

LLaMA（Large Language Model Meta AI），由 Meta AI 于2023年发布的一个开放且高效的大型基础语言模型，共有 7B、13B、33B、65B（650 亿）四种版本LLaMA训练数据是以英语为主的拉丁语系，另外还包含了来自GitHub 的代码数据。训练数据以英文为主，不包含中韩日文，所有训练数据都是开源的。

ChatGLM两代的部署/微调/实现：从基座GLM、ChatGLM的LoRA/P-Tuning微调、6B源码解读到ChatGLM2的微调与实现

热门推荐

结构之法算法之道

03-31

6万+

随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出，绝大部分公司的技术产品服务，以及绝大部分人的工作都将被革新一遍类似iPhone的诞生大家面向iOS编程有了App Store现在有了ChatGPT插件/GPT应用商店，以后很多公司很多人面向GPT编程(很快技术人员分两种，一种懂GPT，一种不懂GPT)然ChatGPT/GPT4基本不可能开源了，而通过上文《

ChatGLM3-6B大模型的部署与使用教程（保姆级）零基础入门到精通，收藏这篇就够了

Python_0011的博客

11-30

1002

ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，具有对话流畅、部署门槛低等众多优秀特性。代码和模型文件****本文实验的配置：GPU：英伟达 3090 24G显存操作系统：centos 7项目1、代码地址：2、下载对应的模型文件modelscope对应的模型地址：文件大小11.64G，根据个人网速不同，本人大约等待30分钟后，下载完成；

2401_85013604的博客

05-14

1079

最近安装了一下叶佬的一键安装包总感觉，没有被bug虐浑身不舒服遂，去github上重新git clone了官方的下来并部署玩玩。

从零开始学AI：ChatGLM2-6B 部署测试

weixin_44626085的博客

04-04

1288

本项目提供了 ChatGLM2-6B 非量化版本在 windows 平台 2张3060显卡机型上进行部署、推理测试教程。

大语言模型部署-使用OpenVINO部署ChatGLM3-附项目源码+流程教程-优质项目实战.zip

10-16

为了成功部署这个模型，项目提供了详细的流程教程，帮助用户从零开始一步步搭建开发环境、准备模型文件、配置参数以及最终实现模型的部署和运行。这些教程不仅涵盖了软件安装、环境配置等基础操作，还包括了如何针对...

ChatGLM（国内版的chatGPT）

qq_41771998的博客

04-03

2万+

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答，更多信息请参考我们的博客。

【ChatGLM】手把手教你云服务器部署ChatGLM聊天网站，不限次数调用。

小梁说代码的博客

07-25

6079

ChatGLM-6B是一个开源的、支持中英双语的对话语言模型，由基于清华大学 KEG 实验室与智谱 AI于 2023 年联合训练，可以针对用户的问题和要求提供适当的答复和支持。它基于 General Language Model 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（具体的部署条件看下章）。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。

【ChatGLM】本地版ChatGPT ？6G显存即可轻松使用！ChatGLM-6B 清华开源模型本地部署教程

timberman666的博客

05-03

6451

【ChatGLM】本地版ChatGPT 6G显存即可轻松使用 ChatGLM-6B 清华开源模型本地部署教程

ChatGLM详解

夏沫の梦的博客

10-09

2543

ChatGLM是由清华技术成果转化的公司智谱AI发布的开源的、支持中英双语问答的对话语言模型系列，并针对中文进行了优化，该模型基于General Language Model（GLM）架构构建，ChatGLM是一款基于人工智能技术的智能聊天机器人，它具备强大的自然语言处理能力，能够理解和回答我们的问题，通过与ChatGLM的对话，我们可以轻松获取各种信息，解决生活中的疑惑，甚至寻求专业建议，ChatGLM的出现，让我们在获取信息、解决问题上更加高效便捷。

【玩转 GPU】本地部署大模型--chatGLM（尝鲜篇）

AAI666666的博客

05-17

1564

本文主要介绍ChatGLM-6B 的本地部署，提供更保姆级别的教程，让完全不懂技术的同学，也能在本地部署大模型～在19年曾经尝试过使用，当时就被大模型效果惊艳到啊，只是没想到短短3年多，大模型效果提升这么快。学不完，根本学不完…大模型实在太火了，终于还是忍不住对它下手。今天介绍如何在本地部署大模型尝鲜，后面有时间会持续出大模型技术原理篇。大语言模型（Large Language Model），是一种人工智能模型，旨在理解和生成人类语言。

探索AI应用领域：智谱清言（ChatGLM）技术详解

z551646的博客

08-23

5986

智谱清言大模型，即GLM-4，是国内较为出色的大模型之一，由智谱AI公司研发，十余项指标逼近或达到GPT-4，支持更长上下文、更强多模态、更快推理速度、更多并发、更强智能体，可处理多种语言任务，包括问答、翻译、文本生成、情感分析等，适用于教育、科研、客户服务、内容创作等多个领域。

国产大语言模型ChatGLM3本地搭建、使用和功能扩展

m0_63171455的博客

06-05

1818

ChatGLM3]

AI多模态模型架构之LLM主干(1)：ChatGLM系列

AIGCmagic的博客

06-13

2223

模态编码器(Modality Encoder, ME)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone)：利用预训练的语言模型，负责处理各种模态的特征，进行语义理解、推理和决策。

如何配置大语言模型 从零开始

最新发布

04-21

<think>好的，用户想了解从零开始配置大语言模型的方法和步骤。首先，我需要回忆之前提供的引用内容，看看有没有相关的步骤。引用[2]提到了基于ChatGLM-6b的本地部署步骤，引用[3]讨论了预训练、微调和模型部署。用户可能希望得到一个系统的教程，从环境准备到模型部署的全流程。首先，确定用户的需求层次。他们可能刚入门，需要详细的步骤，包括硬件和软件的准备。需要分阶段讲解，比如环境配置、模型选择、下载、部署、测试和优化。同时，用户可能关心如何选择适合的模型，比如参数量与硬件资源的匹配，这里需要结合引用[2]中的ChatGLM-6b例子，说明不同模型的选择。然后，要确保步骤清晰，每个部分都有具体操作，比如安装Python、PyTorch，使用Git拉取代码库。可能需要提醒用户注意依赖安装和版本兼容性，避免踩坑，这部分引用[2]提到“步骤详细无坑版”，应该强调这一点。接下来，模型部署部分需要涉及加载模型、推理示例，可能提供代码片段，如使用transformers库，并解释参数设置。测试和优化部分可以参考引用[3]，提到模型剪枝、量化和性能测试，确保模型高效运行。还要考虑用户的实际应用场景，比如本地服务器或云服务，是否需要API封装。最后，资源推荐和常见问题解答能帮助用户进一步学习和解决问题。需要检查是否有遗漏的步骤，例如环境配置中的CUDA版本是否与PyTorch匹配，模型下载的来源是否可靠，以及部署后的测试方法是否全面。同时，确保语言通俗易懂，避免过于专业的术语，让新手也能跟随操作。</think>### 从零开始配置大语言模型的详细步骤 #### 一、基础环境配置 1. **硬件要求** - GPU推荐：至少NVIDIA RTX 3090（24GB显存）以上，支持FP16/FP32混合精度计算 - 内存：建议64GB及以上 - 存储：需预留500GB+空间用于模型权重和数据集[^2] 2. **软件依赖** ```bash # 安装Python 3.8+和PyTorch conda create -n llm python=3.8 conda install pytorch torchvision torchaudio cudatoolkit=11.7 -c pytorch pip install transformers datasets accelerate sentencepiece ``` #### 二、模型选择与获取 1. **模型类型对比** | 模型类型 | 参数量范围 | 适用场景 | |---------|------------|----------| | 基础版 | 1B-7B | 本地测试/个人使用 | | 标准版 | 7B-13B | 企业级应用 | | 增强版 | 13B-175B | 科研/云服务 | 2. **下载预训练模型** ```python from transformers import AutoModel, AutoTokenizer model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True) ``` #### 三、模型部署实践 1. **基础部署流程** ```python # 模型加载示例 model = model.half().cuda() # 半精度优化显存占用 response, history = model.chat(tokenizer, "你好", history=[]) ``` 2. **量化部署（8-bit）** ```python from accelerate import infer_auto_device_map model = load_8bit_model("chatglm-6b-int8", device_map="auto") ``` #### 四、性能优化方案 1. **推理加速技术** - Flash Attention优化：提升自注意力机制计算效率 - Paged Attention：显存分页管理技术 $$ \text{Throughput} = \frac{\text{Batch Size} \times \text{Seq Length}}{\text{Latency}} $$ 2. **显存优化策略** ```python # 梯度检查点技术 model.gradient_checkpointing_enable() # 混合精度训练 scaler = torch.cuda.amp.GradScaler() ``` #### 五、应用场景适配 1. **API服务封装** ```python from fastapi import FastAPI app = FastAPI() @app.post("/generate") async def generate_text(prompt: str): inputs = tokenizer(prompt, return_tensors="pt").to("cuda") outputs = model.generate(**inputs) return {"result": tokenizer.decode(outputs[0])} ``` 2. **领域微调方案** ```python # 使用LoRA微调 from peft import LoraConfig, get_peft_model lora_config = LoraConfig(r=8, lora_alpha=16) model = get_peft_model(model, lora_config) ``` #### 六、工具链推荐 1. **开发工具** - 训练框架：Deepspeed、Megatron-LM - 监控工具：Weights & Biases、TensorBoard - 部署工具：Triton Inference Server