AI多模态模型架构之LLM主干(1)：ChatGLM系列

AIGCmagic社区

已于 2024-10-21 11:12:19 修改

阅读量2.2k

点赞数 26

分类专栏： AI多模态文章标签： AIGC 人工智能

于 2024-06-13 23:46:55 首次发布

本文链接：https://blog.csdn.net/AIGCmagic/article/details/139537115

版权

〔探索AI的无限可能，微信关注“AIGCmagic”公众号，让AIGC科技点亮生活〕

本文作者：AIGCmagic社区刘一手

前言

AI多模态大模型发展至今，每年都有非常优秀的工作产出，按照当前模型设计思路，多模态大模型的架构主要包括以下几个部分：

模态编码器(Modality Encoder, ME)：负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等，音频的Whisper、CLAP等，视频编码器等。
输入投影器(Input Projector)：负责将其他模态的特征投影到文本特征空间，并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。
语言模型骨架(LLM Backbone)：利用预训练的语言模型，负责处理各种模态的特征，进行语义理解、推理和决策。常用的语言模型包括Flan-T5、ChatGLM、LLaMA等。
输出投影器(Output Projector)：负责将语言模型输出的信号转换成其他模态的特征，以供后续模态生成器使用。常用的投影器包括Tiny Transformer、MLP等。
模态生成器(Modality Generator, MG)：负责生成其他模态的输出。常用的生成器包括图像的Stable Diffusion、视频的Zeroscope、音频的AudioLDM等。

本文一手会详细解读AI多模态架构中的语言模型骨架(LLM Backbone)，并从ChatGLM系列、Qwen系列、LLaMA系列三个代表性工作，总结当前主流的工作方案！持续更新，欢迎关注。

在当今人工智能时代，大模型无疑是最引人注目的焦点之一。它们以其强大的自然语言处理能力和广泛的应用场景，正在逐渐改变我们的工作和生活方式。

一、ChatGLM的前世今生

论文链接：https://arxiv.org/abs/2103.10360

代码链接：https://github.com/THUDM/ChatGLM-6B

在这些引人注目的大模型中，ChatGLM系列无疑是一个值得关注的存在。本文将深入探讨ChatGLM大模型系列的前世今生，揭示其背后的技术原理和发展历程，以及它如何成为当今自然语言处理领域的一颗璀璨明珠。

1.1 背景

主流的大模型预训练框架主要有三种：AutoRegressive自回归模型(AR模型)、AutoEncoding自编码模型(AE模型)和Encoder-Decoder(Seq2seq模型)。这三种模型各有其独特的特点和应用场景。

(1) AutoRegressive自回归模型(AR模型)的代表作是GPT。这种模型本质上是一个left-to-right的语言模型，主要应用于生成式任务。在长文本生成方面，AR模型取得了巨大的成功，例如在自然语言生成(NLG)领域的任务，如摘要、翻译或抽象问答。当扩展到十亿级别参数时，AR模型表现出了少样本学习能力。然而，其单向注意力机制也存在一定的局限性，在自然语言理解(NLU)任务中，无法完全捕捉上下文的依赖关系。

(2) AutoEncoding自编码模型(AE模型)的代表作是BERT。这种模型是通过某个降噪目标(比如MLM)训练的双向文本编码器。编码器会产出适用于NLU任务的上下文表示，但在文本生成方面，AE模型无法直接应用。

(3) Encoder-Decoder(Seq2seq模型)的代表作是T5。这种模型采用双向注意力机制，主要应用于条件生成任务，如文本摘要、机器翻译等。

这三种预训练框架各有利弊，没有一种框架在自然语言理解(NLU)、无条件生成以及条件生成这三种领域的表现最佳。T5曾经尝试使用多任务学习(MTL)的方式统一上述框架，然而自编码和自回归目标天然存在差异，简单的融合自然无法继承各个框架的优点。

在这个天下三分的僵持局面下，GLM模型应运而生。GLM模型基于Autoregressive Blank Infilling(自回归空格填充法)，结合了上述三种预训练模型的思想。

1.2 GLM预训练框架

GLM(General Language Modeling)模型是一种结合了自编码和自回归思想的预训练框架:

(1) 自编码：在输入文本中随机删除连续的tokens，然后顺序重建这些连续的tokens。这种自编码的思想使得GLM能够有效地捕捉文本的内在结构信息。

(2) 自回归：在重建过程中，GLM采用自回归的方式预测缺失的tokens。这意味着模型在预测时既可以访问已经被corrupted的文本，又可以访问之前已经被预测的spans。这种设计使得GLM在处理长文本时具有更高的效率和准确性。

(3)Span shuffling和二维位置编码技术：此外，GLM还引入了Span shuffling和二维位置编码技术。Span shuffling通过改变缺失spans的数量和长度，为条件生成以及无条件生成任务预训练语言模型。二维位置编码则能够更好地捕捉文本中的位置信息，提高模型在理解文本序列中的位置关

最低0.47元/天解锁文章