中英双语大模型ChatGLM论文阅读笔记

Charlene Fung

已于 2023-11-29 11:36:50 修改

阅读量1.5k

点赞数 22

分类专栏：论文阅读文章标签：论文阅读笔记自然语言处理语言模型人工智能 nlp

于 2023-11-28 12:15:46 首次发布

本文链接：https://blog.csdn.net/weixin_42854929/article/details/134663925

版权

论文阅读专栏收录该内容

1 篇文章

订阅专栏

GLM-130B相较于GPT-3在参数减少下性能提升，实现了INT4量化无需后训练，显示了出色的量化鲁棒性。文章探讨了模型设计、训练策略和稳定性，强调了在资源受限环境中运行大模型的可能性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文传送门：
[1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling
[2] Glm-130b: An open bilingual pre-trained model
Github链接：
THUDM/ChatGLM-6B

笔记

Abstract

GLM-130B和GPT-3 175B（davinci）相比，参数量减少，但性能提升了。
INT4 quantization without post training
INT4量化是一种将模型的权重和激活从使用较高位宽（如32位或16位浮点数）的表示减少到使用4位整数（INT4）的表示的过程。量化可以显著减少模型的内存需求和计算量，因此可以在资源有限的硬件上运行更大的模型，或者加快模型的推理速度。
不进行后续训练（post-training）的情况下进行INT4量化是一个挑战，因为通常量化会引入噪声和损失精度，影响模型的性能。后续训练（也称为量化感知训练）通常被用来微调量化后的模型，以恢复一些由于量化造成的性能损失。因此，如果没有进行这种微调就能实现几乎没有性能损失的INT4量化，就意味着模型具有非常好的量化鲁棒性。
这样的成果表明，GLM-130B模型可以有效地进行低位宽量化，同时保持其预测性能，这在实际应用中非常重要，因为它使得模型能够在普通消费级硬件上运行，而不是仅限于高性能服务器。这样不仅可以降低使用成本，而且可以使得更广泛的用户群体和开发者能够访问和使用这种大规模的模型。

Introduction

和10B-scale model相比，训练100B-scale model需要解决的挑战：pre-training efficiency，stability，convergence。
预训练使用了GPU集群，包含96个节点，每个节点配置8张 40G NVIDIA DGX-A100 GPU。训练时间为2022/5/6~2022/7/3。
架构：使用了[2]中的General Language Model (GLM) algorithm。
Pre-LN（预层归一化）AND 训练vs.推理的GPU资源使用情况

在Transformer模型中，Pre-LN是指在每个子层（如自注意力层和前馈网络层）的输入之前进行层归一化。这种方式通常可以提高模型的训练稳定性，尤其是在训练非常深的网络时。Pre-LN有助于解决深度Transformer模型中的梯度消失问题，因为它能够使梯度直接流向较深的层。

大模型训练和推理（inference）阶段使用的GPU数量通常有很大的区别，这主要基于以下几个方面：

1. 资源需求：
   - 训练：训练阶段需要处理大量的数据并进行重复的前向传播和反向传播计算，这需要大量的计算资源。因此，通常会使用更多的GPU，甚至是成百上千的GPU，以加快训练速度和处理大规模数据集。
   - 推理：推理阶段通常只需要进行单次的前向传播，计算量相对较小，因此通常需要较少的GPU。在许多应用中，一个或几个GPU就足够用于推理。

2. 并行策略：
   - 数据并行：在训练时，经常使用数据并行策略，将大型数据集分割成小批量，分配到多个GPU上并行处理。
   - 模型并行：对于极大的模型，可能需要使用模型并行策略，将模型的不同部分放在不同的GPU上。
   - 推理时并行：在推理时，通常不需要模型并行，因为一次只处理一个或几个请求。

3. 效率和成本：
   - 训练大模型通常是一项耗时且昂贵的任务，使用更多的GPU可以提高训练效率，但也大大增加了成本。
   - 推理需要尽可能高效和经济，特别是在生产环境中，因此通常会尽量减少所需的GPU数量，以降低成本。

4. 可扩展性和灵活性：
   - 训练阶段的模型通常被设计为能够在大规模分布式系统上扩展。
   - 推理模型通常需要在各种环境中灵活部署，包括边缘设备，因此可能更注重模型的压缩和优化。

总的来说，训练大模型时使用的GPU数量远多于推理阶段，主要是因为训练阶段的资源和计算需求远大于推理。然而，随着量化技术和模型优化的发展，推理阶段所需的资源正在逐渐减少，允许即使是大模型也能在资源受限的环境中运行。

在这里插入图片描述

为什么选择130B：单服务器支持。130亿参数的模型规模支持在单个含有A100 (8×40G) GPU的服务器上进行推理计算。

The design choices of GLM-130B

Inductive bias：归纳偏置

在机器学习中，"inductive bias"指的是一个学习算法在学习过程中对某些模式假设的偏好，这些偏好影响了模型对数据的泛化能力。换句话说，就是当面对有限的数据时，算法如何推广到未见过的数据。它是算法的一种内在属性，决定了算法在学习时对解决问题的途径和方向的偏好。

不同的机器学习模型有不同的归纳偏置。例如：

决策树倾向于寻找数据中的分层逻辑规则。
支持向量机（SVM）通过最大化边界来寻找分类决策边界。
神经网络根据其层次结构寻找可以通过逐层变换来逼近的复杂模式。
在大型语言模型（LLM）如GLM-130B的背景下，模型架构（如Transformer架构）定义了它对语言数据中哪些特征和模式的偏好。例如，Transformer模型通过自注意力机制捕捉长距离依赖，这是它的归纳偏置之一。

然而，由于大型模型的参数量极大，探索不同架构设计的计算成本是非常高的，因此通常需要在设计阶段就做出合理的选择，以确定如何构建模型才能最好地捕捉和泛化数据中的模式。这段文字表明，GLM-130B的设计者意识到了这一点，并且在模型设计中做出了一些独特的选择，以平衡归纳偏置和计算成本。

GLM-130B没有采用传统的GPT架构，而是使用bidirectional GLM作为backbone。

The training stability of GLM-130B

gradient norm的定义

梯度范数的具体变化情况也可能受到多种因素的影响，包括模型的复杂性、数据的多样性、优化算法的选择等。在某些情况下，梯度范数可能会因为模型陷入局部最小值或鞍点而暂时增大。此外，对于一些更复杂的模型或非凸优化问题，梯度范数的变化可能会更加复杂，不一定遵循单调下降的趋势。因此，梯度范数的监控通常被用作训练过程中健康状态的一个指标，帮助研究人员和工程师判断训练是否在进行得当。