清华智谱全家桶技术报告:GLM-130B到GLM-4的系列大型语言模型综述

1 引言

ChatGPT表现出色,其功能最初由GPT-3.5模型 [25] 在2022年11月驱动,随后于2023年3月升级为GPT-4 [27]。根据OpenAI的说法,GPT-3.5系列通过整合指导调整、监督微调(SFT)和/或从人类反馈中强化学习(RLHF)来改进GPT-3 [28]。最初发布于2020年的GPT-3 [3],从GPT-1的1.17亿参数和GPT-2的15亿参数,扩展到了1750亿参数,这种扩大规模使GPT-3具备了上下文学习和泛化能力,推动了大型语言模型(LLMs)的出现 [6; 41]。

受到GPT-3的启发,我们提出了通用语言模型(GLM)架构[11],具有自回归填空目标,并于2021年开源了GLM-10B模型(见图1中的GLM时间线)。从2021年底开始,我们开始预训练GLM-130B [54]。目标是训练一个规模为100B的模型,以匹敌或超越GPT-3(davinci),同时验证在这一规模成功训练模型的技术,以及其他努力,如OPT175B [55]和BLOOM-176B [32]。我们完成了400B令牌的训练和评估。

2022年7月,GLM-130B发布,并随后在2022年8月公布了该模型和预训练细节[54]。根据2022年11月的HELM报告,GLM-130B在各个维度上与GPT-3(davinci)相匹配[19]。

随后,我们开始对GLM-130B进行指令调整。后来,ChatGPT进一步激励我们将基础模型与SFT和RLHF进行对齐。我们从头开始创建和制作了提示-回复对,并进行了SFT,同时也开始研究如何有效应用RLHF。2023年3月14日,对齐的模型ChatGLM-130B在https://chatglm.cn上正式上线。此外,一个更小的版本ChatGLM-6B,在同一天开源,吸引了比预期更多的关注。它设计有62亿参数,用于促进

图 2:GLM-4所有工具的示例说明。

快速迭代预训练和后训练技术以及数据选择,以及使用INT4量化在消费级图形卡上进行本地部署。从那时起,我们一直在快速探索和完善我们的预训练和对齐技术,导致每三个月推出一次ChatGLM系列的第二代和第三代,这两者都是从头开始完全预训练的。

ChatGLM-6B在大约一万亿个中英文语料库标记中进行了预训练,上下文长度为 2,048(2K**),主要由 SFT** 补充。ChatGLM2-6B 在六月发布,经过预训练并与更多更好的数据对齐,相比前任有显著改进,包括 MMLU **提升了 23%****,**GSM8K 提升了 571%,BBH 提升了 60%。通过采用 FlashAttention 技术,其上下文长度扩展至 32K。此外,多查询注意力的整合使推理速度提高了 42%。进一步地,我们的第二代代码模型 CodeGeeX2-6B 通过对额外的 6000亿个代码标记进行预训练而开发而成。它在初代 CodeGeeX-13B 上取得了 Pass@1 的改进,Python 提升了 57%,C++ 提升了 71%,Java 提升了 54%,JavaScript 提升了 83%,Go 提升了 56%,由 HumanEval-X 测得。通过更多元化的训练数据集、更充分的训练步骤以及更优化的训练策略,ChatGLM3-6B 在语义、数学、推理、代码和知识等方面超越了 42 项基准。从这一代开始,ChatGLM 也支持函数调用和代码解释器,以及复杂的代理任务。在这些发展过程中,我们还开发了包含 15B、3B、12B、32B、66B 和 130B 参数的模型,使我们能够验证观察结果并建立自己的扩展规律。

随着所有的经验和教训的积累,我们启动了GLM-4****的训练。第一个截止检查点随后经历了多阶段的后期培训过程(例如SFT,RLHF,安全对齐),目前重点放在中文和英文上。随后,它被开发成了两个不同的版本:GLM-4和GLM-4 All Tools,都支持128K的上下文长度。自2024年1月16日起,GLM-4(0116)已经通过https://bigmodel.cn提供GLM-4 API,并且GLM-4 All Tools可以通过https://chatglm.cn的网站和支持创建自己的代理—GLMs的移动应用程序进行访问。最新的模型是GLM-4(0520)和GLM-4-Air(0605),在预训练和对齐方面都进行了升级。GLM-4-Air实现了与GLM-4(0116)相当的性能,同时具有更低的延迟和推断成本。对GLM-4进行了各种语言基准的评估。这些评估评估了GLM-4在英语、英语和汉语的指令跟随、对齐、长上下文以及汉语中代理容量方面的一般能力。

首先,关于最常用的英语学术基准——MMLU,GSM8K,MATH,BBH,

GLM-4 0520在GPQA和HumanEval上的表现几乎与GPT-4相当。

0613 [27]和Gemini 1.5 Pro [40]。例如,在MMLU上得分为83.3对86.4和83.7,1:Open ChatGLM-6B**、ChatGLM2-6B****、ChatGLM3-6B和GLM-4-9B的性能。**

分别。其次,根据IFEval [61],在英语和中文两种语言中,GLM-4在提示和指令水平上的执行能力几乎与GPT-4-Turbo一样有效。第三,在中文语言对齐方面,GLM-4胜过GPT-4并且匹配。

在AlignBench中跨越八个维度的GPT-4-Turbo。最后,对于长文本任务,GLM-4。(128K)模型在LongBench-Chat [1]测试中的表现与GPT-4 Turbo和Claude 3 Opus相匹配,分别为87.3 vs. 87.2和87.7。

GLM-4 All Tools模型专门针对更好理解用户意图并自主选择最适合的工具来完成任务进行了调整。例如,它可以通过网页浏览器以多轮方式访问在线信息,使用Python解释器解决数学问题,利用文本到图像模型生成图像,并调用用户定义的函数。图2展示了GLM-4 All Tools与网页浏览器和Python解释器的示例,用于回答用户查询“搜索2000年至2023年的全球人口,然后计算平均年增长率”。我们的第一手测试表明,它不仅能够匹配,而且常常超越了GPT-4 All Tools在常见任务中的能力。

跟随我们的三代开放式ChatGLM-6B模型,我们还公开发布了GLM-49B(128K和1M上下文长度)模型。GLM-4-9B在大约一万亿多语种语料库上进行了预训练,上下文长度为8192(8K**),并使用与GLM-4****(0520****)相同的流程和数据进行了后续训练**。虽然训练计算资源较少,但其性能优于Llama-38B [24],并支持GLM-4中所有工具的功能。我们还提供了一个实验模型GLM-4-9B-Chat-1M,上下文长度为100万(1M)(约200万个中文字符)。表1显示了三代ChatGLM-6B模型和GLM-4-9B的性能,展示了ChatGLM随时间的逐步改进。

图3总结了从GLM-130B到GLM-4 All Tools的主要改进和功能特点。

在这个旅程中,我们也为LLMs代码的开放发展做出了贡献。

(CodeGeeX [58])以及用于图像理解的视觉语言模型(CogVLM [45]和CogAgent [16])以及文本到图像生成的模型(CogView [10; 59])。可以通过 https://github.com/THUDM 和 https://huggingface.co/THUDM 访问这些开放模型和数据。

图3:从GLM-130B到ChatGLM再到ChatGLM2/3再到GLM-4所有工具。

2 ChatGLM技术

在这一部分,我们将介绍ChatGLM中采用并开发的预训练和后训练技术,包括模型架构,预训练数据,对齐和全部工具。我们已经详细介绍了我们用来达到GLM-4的主要技术的技术报告。

预训练数据。我们的预训练语料库包括来自不同来源的多语言(主要是英文和中文)文档,包括网页、维基百科、书籍、代码和论文。数据处理流程主要包括三个阶段:去重、过滤和标记化。去重阶段通过删除重复或相似文档来改善数据多样性,包括精确去重和模糊去重。过滤阶段通过删除包含冒犯性语言、占位文本、源代码等嘈杂文档来提高数据质量。标记化阶段将文本转换为一系列标记,以便进行进一步处理。预训练数据中的标记数量直接影响模型训练速度。为了优化这一方面,我们使用字节级字节对编码(BPE)算法[33]分别学习中文和多语言标记,将它们与tiktoken[26]中的cl100k_base标记合并为一个大小为150,000的统一词汇表。在最终的训练集中,我们重新给不同来源赋权,以增加高质量和教育性来源(如书籍和维基百科)的比例。为此,预训练语料库中包含大约十万亿个标记。

在 ChatGLM 发展的四代过程中,我们的研究结果与现有研究[60]一致:数据质量和多样性对于构建有效的LLM至关重要。尽管我们已经从实证教训和见解中获益,但迄今尚未确定可指导数据收集、清洗和选择过程的基本原则。

架构**。**GLM系列的LLM基于Transformer [43]构建。在GLM-130B [54]中,我们探索了各种选项来稳定其预训练,考虑到当时我们面临的硬件限制。具体来说,GLM-130B利用DeepNorm [44]作为层归一化策略,并在FFN中使用了Rotary Positional Encoding (RoPE) [38]以及带有GeLU [15]激活函数的门控线性单元。在我们的探索过程中,我们调查了不同的策略来增强模型性能和推理效率。最近的GLM-4模型采用了以下架构设计选择。

除QKV以外没有偏差:为了增加训练速度,我们已经移除了所有偏差项,除了注意力层中的查询****(Query)、键(Key)和数值(Value)(QKV)的偏差。通过这样做,我们观察到在长度外推方面的轻微改善。

RMSNorm和SwiGLU:我们已经采用RMSNorm和SwiGLU分别取代LayerNorm和ReLU。观察到这两种策略在模型性能方面表现更好。

旋转位置嵌入(RoPE):我们已将RoPE扩展为二维形式,以适应GLM中的2D位置编码。

1:组查询注意力(GQA:我们已将多头注意力(MHA)替换为组查询注意力(GQA),以减少推断期间的KV缓存大小。鉴于GQA使用的参数比MHA更少,我们增加了FFN参数计数以保持相同的模型大小,即将dffn设置为隐藏大小的10/3。

我们的模型的上下文长度从2K(ChatGLM)扩展到32K(ChatGLM2和ChatGLM3),再到128K和1M(GLM-4)。 这种扩展不仅是通过上下文扩展实现的,还借助了位置编码的扩展和对长文本的持续训练,以及长上下文对齐,使得GLM-4能够有效处理长上下文(有关技术细节,请参见[1])。

**对齐。**预训练建立了LLM的基础,而后训练进一步细化这些模型,使其与人类偏好一致,如理解人类意图,遵循指示,促进多轮对话。对于GLM-4,对齐主要通过监督微调(SFT)和来自人类反馈的强化学习(RLHF)来实现。在SFT中,我们发现真实的人类提示和互动对于对齐质量至关重要,而非基于模板或模型生成的响应。尽管SFT主要将基础模型与人类偏好对齐,RLHF可以进一步帮助缓解响应拒绝、安全性、生成的双语令牌混合以及多轮连贯性等问题。

**对于第一代模型(**ChatGLM-6B和ChatGLM-130B),提示-响应对大多数是由模型开发人员进行注释的。对于后续的模型,对齐数据是内部注释数据和从第三方获取的专有数据的组合,受相对严格的质量控制措施的约束。与现有实践类似[42],注释者被指示从多个维度对模型响应进行评分,包括安全性、事实性、相关性、帮助性和人类偏好。

**ChatGLM****技术。**在ChatGLM的发展过程中,我们介绍并将发布用于提升其性能的技术。

LLMs****的新兴能力[12]:我们研究了预训练损失与下游任务表现之间的关系,发现在相同的预训练损失下,不同模型大小和训练标记的LLMs生成相同的下游表现。我们还发现在某些任务(例如MMLU和GSM8K)中,只有当预训练损失低于一定阈值时,性能才会超过随机机会。因此,我们将新兴能力重新定义为那些具有较低预训练损失的模型所展示的能力[12]。

LongAlign[1]: 为了扩大LLMs的上下文窗口尺寸,我们提出了LongAlign——一个全面的长上下文对齐方案。它使GLM-4能够处理长上下文文本(高达128K个标记),性能可与Claude 2和GPT-4 Turbo(1106)相媲美。

ChatGLM-Math [48]: 为了提高LLM中的数学问题解决能力,我们引入了ChatGLM-Math,它利用自我批判而不是外部模型或手动标注来进行数据选择。

ChatGLM-RLHF [17]: 为了将LLMs与人类反馈对齐,我们引入了ChatGLM-RLHF - 我们将PPO和DPO应用到LLMs中的实践。

自对比[22]:为了避免需要昂贵的人类偏好反馈数据,我们开发了一种无需反馈的对齐策略Self-Contrast。它利用目标LLM本身来自动生成大量负样本,用于RLHF对齐。

Agent Tuning [53]: 为了提高LLMs的agent能力,我们开发了AgentTuning框架,其中包括AgentInstruct指令调整数据集,其中包含代理和环境之间的高质量交互轨迹。

APAR [20]:为了提高具有层次结构响应的LLMs的推理速度,我们提出了一种自动并行自回归(APAR)生成方法。它利用指示调节来训练LLMs规划它们的(并行)生成过程并执行APAR生成。

基准测试:我们还开发了几个开放的LLM基准测试,包括用于评估LLM作为代理的AgentBench [23],用于评估LLM处理长上下文性能的LongBench [2],用于测量ChatGLM与中文语言内容对齐质量的AlignBench [1],用于评估超越Python编程语言的HumanEval [4]问题的HumanEval-X [58],以及用于衡量模型解决实际编程任务能力的NaturalCodeBench(NCB)。

GLM-4****所有工具。最新的 ChatGLM 模型是 GLM-4 和 GLM-4 全部工具,这两个模型都使用上述技术进行训练和对齐。GLM-4 全部工具是一个进一步定位以支持智能代理和相关任务的模型版本。它可以自主理解用户意图,规划复杂指令,并调用一个或多个工具(例如,Web 浏览器,Python 解释器和文本到图像模型)来完成复杂任务。图 4 展示了 GLM-4 全部工具系统的总体流程。当用户提出复杂请求时,模型会分析任务和

图4:GLM-4 All Tools和定制GLMs(代理)的整体流程。

**按照步骤计划解决过程。**如果确定无法独立完成任务,它将按顺序调用一个或多个外部工具,利用它们的中间反馈和结果来帮助解决任务。

基于GLM-4的全工具功能,我们还开发了GLMs应用平台,允许用户为特定任务创建和定制他们自己的智能体。GLMs不仅支持内置的Python解释器、Web浏览器、文本到图像模型,还支持用户定义的函数、API和外部知识库,以更有效地满足用户需求。

3 GLM-4能力

我们从不同角度考察了GLM-4模型的能力,包括学术基准的基本能力、代码解决问题能力、英语代理能力以及遵循指令,以及中英文长文本和中文对齐能力。如前所述,GLM-4主要在中文和英文方面进行了预训练,并主要对齐到中文。在本节中,我们主要报告了最新版本GLM-4 (0520) 和 GLM-4Air (0605) 的结果,因为在评估基准测试中,GLM-4 (0520) 稍微优于其原始版本0116。在评估过程中,GLM-4和GLM-4-Air均使用BFloat16精度。

作为基线**,**我们展示了来自相应技术报告或通过其公共API进行测试的GPT-4(0603)、GPT-4 Turbo(1106,2024-04-09)、Claude 2、Claude 3 Opus和Gemini 1.5 Pro的结果。

总的来说,GLM-4在标准基准测试、指令遵循、长文本、代码问题解决和英文环境中的代理能力方面接近于最先进的模型(GPT-4-Turbo、Gemini 1.5 Pro和Claude 3 Opus)。对于中文对齐,在各个领域,如基本语言能力、高级中文理解、专业知识和开放性问题,它表现出色,与SOTA模型的表现媲美。总的来说,GLM-4在中文任务方面名列前茅。尽管在中文数学和逻辑推理能力方面落后于GPT-4 Turbo,但它展现出与GPT-4和Claude 3 Opus可比的表现。

3.1 学术标准评估

为了评估基础模型的整体性能,我们选择了涵盖知识、数学、推理、常识和编程等领域的六个常用基准测试。

MMLU [14]: 收集自各种考试的多项选择题,包括数学、历史、计算机科学等。我们向模型展示所有答案,并要求它选择答案对应的字母。

GSM8K [7]:8,500个小学数学文字问题(测试集中有1,000个),需要模型使用数学概念解决现实生活中的情境问题。我们在这个基准测试中使用思维链提示[46]。

数学:12,500道具有竞赛水平挑战性的数学问题(测试集中有5,000道)。

我们在这个基准测试中使用思维链提示[46]。

BBH [39]: 一个由23个具有挑战性的BIG-Bench [37]任务组成的套件。我们为这个基准测试使用了链式思维提示[46]。

GPQA [31]: 生物学、化学和物理学中的研究生级多选基准。

HumanEval [4]: 一个通过自动测试案例检查来衡量合成函数正确性的编码基准。

我们将GLM-4与原始的GPT-4 [27]进行了性能比较。结果如表2所示。我们可以观察到,GLM-4在MMLU上达到了GPT-4精度的96.3%,并在其他基准测试中表现优越。总体而言,GLM-4的基础容量接近于GPT-4-Turbo和Claude 3 Opus。

表2:GLM-4在学术基准测试中的表现。

3.2 跟随指示的评估

我们利用最近引入的IFEval数据集[61]评估GLM-4在遵循指示方面的熟练程度。该数据集包括541个提示,这些提示来自25个可通过明确标准验证的指令(例如,“在电子邮件结尾处加上:P.S.我喜欢蛋糕”可以通过字符串匹配进行验证)。我们遵循[61]所概述的方法来计算严格模式和宽松模式下的提示级别和指令级别准确性。为进一步评估模型在遵循中文指令方面的表现,我们将原始提示翻译成中文,省略了在中文中不适用的指令(如大写字母),并调整评分脚本以适应中文数据。

表3:GLM-4 在IFEval [61]上的表现,一个LLM指令跟踪基准。‘L’代表’宽松’,‘S’代表’严格’。‘P’代表’提示’,‘I’代表’指令’。

表3中的英文和中文部分分别显示了英文和中文的结果。在宽松模式下,GLM-4在英文和中文方面的指令级准确率与GPT-4 Turbo相匹配。在严格模式下,GLM-4分别在英文和中文方面实现了GPT-4 Turbo(2024-04-09)指令级准确率的99.0%和98.6%。

3.3 评估对齐结果

AlignBench [21]提供了一种自动的LLMs作为评判者的方法,用于评估LLMs在中文环境下的对齐情况。它包含了683个查询,涵盖了8个不同的类别,并且使用基于GPT-4的多维规则校准的基于参考的单点评分方法来评判模型的响应。我们在AlignBench-v1.1上进行评估,该版本更加仔细地提高了参考生成质量,特别是通过补充人类收集的网页证据和涉及知识的问题的网址,这类问题占总查询量的66.5%。在这个版本上,几乎所有的LLMs在某种程度上都比在先前的AlignBench上获得更低的分数。

表4:GLM-4在AlignBench [21]上的表现,这是一个用于中文对齐的LLM基准测试。

结果如表4所示。总体而言,GLM-4在一般情况下优于GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 Pro,获得了最高的总体得分。特别是在中文逻辑推理和语言理解维度上,GLM-4显着优于所有其他强大的模型。这些结果表明它对中文语言和知识有着很强的把握。

GLM-4和GPT-4 Turbo(2024-04-09)之间的当前性能差距主要在于数学维度。我们一直在采用ChatGLM-Math [48]中介绍的技术,例如自我批判,不断增强GLM模型的推理能力。

3.4 评估长上下文处理能力

为了获取GLM-4在长文本任务上的表现,我们在LongBenchChat [1]上进行评估,这是一个基准集,其上下文长度范围为10-100k,涵盖了用户经常使用的各种长文本场景,如文件问答、摘要和编码。为了提供GLM-4在不同语言下表现的更详细比较,我们还按照语言对LongBench-Chat进行了分离。这产生了两个不同的部分:中文和英文。因此,我们分别提供了两个片段的结果,为GLM-4的跨语言能力提供了细致的概述。

关于具体的评估设置,我们根据GPT-4评分每个模型的输出,在LongBench-Chat中采用了少样本策略。此外,考虑到我们的目标是最小化评分变化,并达到更可靠的统计结论,我们进行了多次评估。随后,我们计算这些多次评估的平均值,以确保最终的性能指标反映了GLM-4在不同条件下的行为方式。

表5显示了我们实验得到的结果。可以明显观察到,GLM-4的性能与GPT-4 Turbo和Claude 3 Opus在英文提示下相符,且在中文提示下能够优于它们中的最佳表现。

表5:GLM-4在LongBench-Chat上的表现[2]。

3.5评估对实际用户提示的编码

虽然HumanEval [4]被广泛应用于评估代码生成,但其中大部分问题可以归类为初级算法。然而,在实践中,真实用户为生产目的提出了复杂的问题,通常超出了HumanEval的范围。此外,先前的研究报告了其自身或其他LLMs中的受HumanEval污染的训练数据 [27; 18; 50],使得在HumanEval上的结果相对不那么可信。

表6: 在NaturalCodeBench(NCB)[56]上的GLM-4性能,这是一个具有两种编程语言(Python和Java)的真实编程提示的基准,适用于英语和中文。

作为结果,除了在HumanEval上评估GLM-4外,我们还在NaturalCodeBench(NCB)[56]上对其进行评估,该挑战性的双语编码基准源自自然用户提示,以反映真实世界编码任务的复杂性。结果显示在表6中。表明GLM-4在实际场景中与Claude 3 Opus有相近的编码性能。虽然与GPT-4模型仍存在差距,但考虑到GLM-4的双语平衡性质,通过更好的训练策略和数据整理,它在NCB上的性能有很大潜力得到提升。

3.6 函数调用的评估

评估GLM模型在函数调用上的表现,我们在伯克利函数调用排行榜[49]上进行评估,这是一个包含2k个问题-函数-答案三元组的基准。该基准评估了模型在三个类别中调用函数的能力:通过抽象语法树(AST)进行评估,通过执行API进行评估以及相关性检测。第一类别通过AST分析将模型输出的函数与函数文档和可能的答案进行比较。第二类别通过执行生成的函数调用来检查响应的正确性。相关性检测评估了模型对于识别不适合回答用户问题的函数的能力。结果如表7所示。我们可以观察到,GLM-4(0520)的函数调用能力与GPT-4 Turbo(2024-04-09)一致,而GLM-4-9B-Chat的表现明显优于Llama-3-8B-Instruct。另一个观察结果是,整体准确率并没有随着模型大小的增加而提高,甚至GLM-4-9B-Chat可能胜过GLM-4-Air。另外,我们观察到在执行摘要方面的表现,即评估真实API执行结果的部分,随着模型大小的增加而平稳提高。

表7:伯克利函数调用排行榜上的GLM性能。

3.7评估智能体能力

人们普遍观察到LLMs能够在各种环境和背景下作为智能代理,被称为LLMs-as-Agents。因此,我们在AgentBench上评估GLM-4与其他对比LLMs,在AgentBench上提供了一项全面的基准测试,涵盖了一系列实际环境,包括基于代码、基于游戏和基于网络的背景。具体而言,我们在AgentBench的8个环境中评估了7个,除了数字卡牌游戏,因为它需要更长的交互时间。总体得分是使用AgentBench提供的原始每个数据集权重计算的。

表8:GLM-4在AgentBench上的性能[23]。

结果如表8所示。从中可以看出,GLM-4模型在主体任务上表现相当出色,GLM-4-Air的得分与GPT-4 Turbo和Claude 3 Opus相当,而GLM-4的得分超过了它们。就具体环境而言,我们发现GLM-4系列在数据库、家务和网购任务上表现特别出色,但在操作系统、知识图谱和横向思维难题方面仍然与GPT-4系列存在差距。这种差距表明GLM-4在与代码相关的主体任务和高度互动的语言任务上仍有改进空间。

3.8 所有工具的评估

GLM-4进一步对齐,以支持https://chatglm.cn上的智能代理和用户自配置的GLMs功能,形成的模型是GLM-4所有工具。正如所提到的,GLM-4所有工具可以通过自主理解用户意图、制定逐步指令以及调用多个工具(包括Web浏览器、Python解释器和文本至图像模型(例如CogView3 [59]))来完成复杂任务。表9显示,GLM-4所有工具(Web版)在解决数学问题的Python解释器上,以及在信息搜索的浏览器上,可以与ChatGPT-4(Web版)实现类似的性能。

表9:GLM-4所有工具的性能。

4 安全与风险

我们致力于确保GLM-4作为一个安全、负责任和公正的模型进行运作。除了解决常见的道德和公平关切外,我们还认真评估并降低这个模型在现实场景中可能给用户带来的潜在伤害。

Table 10:GLM-4在SafetyBench [57]上的性能,与GPT-4模型和Claude 3 Opus进行比较。

**风险缓解。**在预训练阶段,我们通过删除包含敏感关键词和网页的文本来仔细清理数据。在对齐阶段,我们评估每个训练样本的安全性,并删除可能存在潜在风险的样本。在比较多个模型输出时,无害性也是偏好对齐的重要标准。

我们有一个红队,他们不断地用棘手的问题挑战模型,这些问题往往会导致不安全的答案。我们从GLM-4中收集了所有有害的问答对,并通过人工标注来改进它们,以进一步对齐模型。

**安全评估。**我们在SafetyBench [57]数据集上评估了GLM-4模型,该数据集从7个维度评估每个模型的能力:道德与道德(不道德行为)、非法活动(法律基本知识)、心理健康(对心理健康的不良影响)、冒犯行为。(offensive behaviors), Physical Health (dangerous behaviors that can cause physical harms), Privacy and Property (privacy breach or property loss), Unfairness and Bias. 我们在SafetyBench的中文子集上评估不同的模型,该子集通过删除可能被阻止的高度敏感问题来减轻来自不同API安全政策的干扰。

表格10显示了GLM-4和SOTA模型的安全性结果。在大多数维度上,GLM-4 (0520) 展现出竞争性的安全性表现,总体而言,与Claude 3 Opus相比,它达到了可比较的性能。GLM-4在一定程度上落后于GPT-4系列模型,尤其是在身体健康维度上,这需要关于物理世界的健壮常识知识来避免潜在风险。为开发一个更具能力和安全性的GLM模型,我们已经在这方面投入了更多的努力。

5 结论

在这份报告中,我们介绍了从GLM-130B到GLM4(All Tools)的ChatGLM系列大型语言模型。在过去的一年半时间里,我们在理解大型语言模型各种视角方面取得了巨大进展,这些都来源于我们的第一手经验。随着每个模型世代的发展,团队学到了更加有效和高效的模型预训练和对齐策略。**最近的ChatGLM模型 — GLM-4(0116,0520)、GLM-4-Air(0605)和GLM-4 All Tools — 通过自主使用外部工具和功能,在理解和执行复杂任务方面取得了显著进展。**这些GLM-4模型在处理与中文相关任务方面的表现已经达到了甚至超越了GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 Pro等现有模型的水平。此外,我们致力于通过公开发布我们在这一过程中开发的模型权重和技术,促进LLM的可访问性和安全性。我们的公开模型,包括语言、代码和视觉模型,在2023年仅在Hugging Face上吸引了超过1000万次下载目前,我们正在利用到目前为止所学到的一切,致力于开发能力更强的模型。未来,我们将继续通过开源技术民主化尖端LLM技术,并将模型能力的边界推向使机器像人类一样思考的使命。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
  • 8
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值