深入解读ChatGLM系列：从初代到第三代的演变

最新推荐文章于 2025-05-07 08:25:04 发布

aehrutktrjk

最新推荐文章于 2025-05-07 08:25:04 发布

阅读量581

点赞数 5

文章标签： python

本文链接：https://blog.csdn.net/aehrutktrjk/article/details/142727525

版权

引言

ChatGLM是一个开源的双语语言模型系列，基于通用语言模型（GLM）框架。本文将探讨ChatGLM系列的演变历程，剖析其从初代到第三代的特性和改进，并提供如何使用这些模型进行文本补全的实用指南。

主要内容

ChatGLM-6B与ChatGLM2-6B

ChatGLM-6B是第一代双语语言模型，具有6.2亿参数，通过量化技术，用户可以在消费级显卡上实现本地部署。ChatGLM2-6B是它的升级版本，增强了性能、延长了上下文处理能力，并提高了推理效率。

ChatGLM3-6B

ChatGLM3-6B是由智谱AI和清华大学知识工程实验室联合推出的第三代对话模型，继续优化了对话流畅性和性能。

代码示例

下面的示例展示了如何使用LangChain与ChatGLM3-6B进行文本补全。由于某些地区的网络限制，开发者可能需要使用API代理服务来提高访问稳定性。

from langchain.chains import LLMChain
from langchain_community.llms.chatglm3

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aehrutktrjk

关注关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

chatGLM介绍

沧海之巅的专栏

09-07

858

ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，可以在消费级的显卡上运行。

ChatGLM: 探索自然语言处理的新境界

gitblog_00091的博客

03-23

577

ChatGLM: 探索自然语言处理的新境界 chatglm.cppC++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & more LLMs项目地址:https://gitcode.com/gh_mirrors/ch/chatglm.cpp ChatGLM，全称是“聊天全局模型”（Chat Global Language Model...

参与评论您还未登录，请先登录后发表或查看评论

AI多模态模型架构之LLM主干(1)：ChatGLM系列

AIGCmagic的博客

06-13

2285

模态编码器(Modality Encoder, ME)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。语言模型骨架(LLM Backbone)：利用预训练的语言模型，负责处理各种模态的特征，进行语义理解、推理和决策。

深度解析：万字文章全面解读ChatGLM系列发展历程与功能特点

Everly_的博客

08-23

1940

模型文件：https://huggingface.co/THUDM/chatglm-6b博客：https://chatglm.cn/blog论文：https://arxiv.org/pdf/2103.10360.pdfChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。

大模型基础（六）：ChatGLM原理介绍

最新发布

TANTANWANG的博客

05-07

1191

ChatGLM是由中国智谱AI（Zhipu AI）与清华大学知识工程实验室（KEG）联合开发的一系列开源双语（中英文）对话大语言模型。该系列模型基于GLM（General Language Model）架构，针对对话场景进行了针对性改进，使其专注于高效推理和自然对话能力，适用于多种实际场景，如智能客服、内容生成、知识问答等，是国内目前的主流大模型之一。ChatGLM系列以高效、实用、安全为核心目标，通过GLM架构的创新和持续迭代，在双语对话场景中展现了强大的竞争力。

ChatGLM（国内版的chatGPT）

2401_87555593的博客

11-09

1005

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于") 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答，更多信息请参考我们的博客。

ChatGLM系列解析（一）—— ChatGLM开篇之作

xiao_ling_yun的博客

07-23

1320

ChatGLM系列的开篇之作，主要讲解其中的核心技术与关键点

安装chatglm

qq_36437991的博客

04-30

1524

windows安装chatglm

chatglm——从部署到训练全流程&&你遇到的错误都在这里。

04-17

8947

chatglm成功部署在阿里云PAI平台

LLM | ChatGLM.cpp 安装使用（支持CPU、Metal及CUDA推理）

宇宙有只 AGI 的博客

09-30

786

还支持没写到的 Function call、Code interpreter、多模态问答等

ChatGLM详解

夏沫の梦的博客

10-09

2598

ChatGLM是由清华技术成果转化的公司智谱AI发布的开源的、支持中英双语问答的对话语言模型系列，并针对中文进行了优化，该模型基于General Language Model（GLM）架构构建，ChatGLM是一款基于人工智能技术的智能聊天机器人，它具备强大的自然语言处理能力，能够理解和回答我们的问题，通过与ChatGLM的对话，我们可以轻松获取各种信息，解决生活中的疑惑，甚至寻求专业建议，ChatGLM的出现，让我们在获取信息、解决问题上更加高效便捷。

ChatGLM学习

银晗的学习博客

09-07

3373

在传统的自注意力机制中，输入序列中的每个位置都会计算一个注意力权重，用于对其他位置的信息进行加权聚合。而在双流自注意力机制中，会引入两个注意力流，分别用于处理不同类型的信息。它是基于自注意力机制（self-attention）的扩展，通过引入两个独立的注意力流来处理不同类型的信息。，从其中采样文本span{s1，· · ·，sm}，其中每个si表示连续令牌的跨度，并用单个掩码替换si，要求模型对它们进行自回归恢复。：条件独立性假设，预测每个mask的时候是并行的，没有考虑mask之间的关系。

自学大语言模型之ChatGLM(一)

qq_38915354的博客

05-21

1405

大语言模型GLM

ChatGLM：ChatGPT的平替方案，轻松搭建与部署指南

gitblog_06660的博客

09-26

1020

ChatGLM：ChatGPT的平替方案，轻松搭建与部署指南【下载地址】ChatGLM环境搭建与部署运行指南 ChatGLM环境搭建与部署运行指南本仓库提供了一个详细的资源文件，帮助您了解如何搭建和部署ChatGLM环境，作为ChatGPT的平替方案 ...

LLM之GLM/ChatGLM系列

m0_58432503的博客

07-17

2065

与其他大模型如GPT-3，OPT-175B，BLOOM-176B模型相比，GLM-130B的一个显著优势就是在进行INT4量化后，模型的性能没有收到很大损害，究其原因在于GLM-130B模型的参数分布相对较窄，可以用更少的字节数表示出全部的权重分布，因此在进行INT4量化时能够在保持相对多的性能，并且通过实验观察到INT4和FP16版本之间的差距随着GLM模型尺寸的扩大而进一步缩小，更进一步表现GLM模型在量化方面的天然优势。上述架构的调整带来的收益是模型的上下文长度变大，从2K-->128K。

【ChatGLM】手把手教你云服务器部署ChatGLM聊天网站，不限次数调用。

小梁说代码的博客

07-25

6126

ChatGLM-6B是一个开源的、支持中英双语的对话语言模型，由基于清华大学 KEG 实验室与智谱 AI于 2023 年联合训练，可以针对用户的问题和要求提供适当的答复和支持。它基于 General Language Model 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（具体的部署条件看下章）。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。

ChatGLM 本地部署指南（问题解决）

Qinghub‘博客

05-10

1427

ChatGLM 本地部署指南，部署问题解决

中文ChatGPT平替——ChatGLM：全新对话模型内测，手把手调教开源单卡版本