〔探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活〕
本文作者:AIGCmagic社区 刘一手
前言
AI多模态大模型发展至今,每年都有非常优秀的工作产出,按照当前模型设计思路,多模态大模型的架构主要包括以下几个部分:
-
模态编码器(Modality Encoder, ME):负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等,音频的Whisper、CLAP等,视频编码器等。
-
输入投影器(Input Projector):负责将其他模态的特征投影到文本特征空间,并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。
-
语言模型骨架(LLM Backbone):利用预训练的语言模型,负责处理各种模态的特征,进行语义理解、推理和决策。常用的语言模型包括Flan-T5、ChatGLM、LLaMA等。
-
输出投影器(Output Projector):负责将语言模型输出的信号转换成其他模态的特征,以供后续模态生成器使用。常用的投影器包括Tiny Transformer、MLP等。
-
模态生成器(Modality Generator, MG):负责生成其他模态的输出。常用的生成器包括图像的Stable Diffusion、视频的Zeroscope、音频的AudioLDM等。
本文一手会详细解读AI多模态架构中的语言模型骨架(LLM Backbone),并从ChatGLM系列、Qwen系列、LLaMA系列三个代表性工作,总结当前主流的工作方案!持续更新,欢迎关注。
在当今人工智能时代,大模型无疑是最引人注目的焦点之一。它们以其强大的自然语言处理能力和广泛的应用场景,正在逐渐改变我们的工作和生活方式。
一、ChatGLM的前世今生
在这些引人注目的大模型中,ChatGLM系列无疑是一个值得关注的存在。本文将深入探讨ChatGLM大模型系列的前世今生,揭示其背后的技术原理和发展历程,以及它如何成为当今自然语言处理领域的一颗璀璨明珠。
1.1 背景
主流的大模型预训练框架主要有三种:AutoRegressive自回归模型(AR模型)、AutoEncoding自编码模型(AE模型)和Encoder-Decoder(Seq2seq模型)。这三种模型各有其独特的特点和应用场景。
(1) AutoRegressive自回归模型(AR模型)的代表作是GPT。这种模型本质上是一个left-to-right的语言模型,主要应用于生成式任务。在长文本生成方面,AR模型取得了巨大的成功,例如在自然语言生成(NLG)领域的任务,如摘要、翻译或抽象问答。当扩展到十亿级别参数时,AR模型表现出了少样本学习能力。然而,其单向注意力机制也存在一定的局限性,在自然语言理解(NLU)任务中,无法完全捕捉上下文的依赖关系。
(2) AutoEncoding自编码模型(AE模型)的代表作是BERT。这种模型是通过某个降噪目标(比如MLM)训练的双向文本编码器。编码器会产出适用于NLU任务的上下文表示,但在文本生成方面,AE模型无法直接应用。
(3) Encoder-Decoder(Seq2seq模型)的代表作是T5。这种模型采用双向注意力机制,主要应用于条件生成任务,如文本摘要、机器翻译等。
这三种预训练框架各有利弊,没有一种框架在自然语言理解(NLU)、无条件生成以及条件生成这三种领域的表现最佳。T5曾经尝试使用多任务学习(MTL)的方式统一上述框架,然而自编码和自回归目标天然存在差异,简单的融合自然无法继承各个框架的优点。
在这个天下三分的僵持局面下,GLM模型应运而生。GLM模型基于Autoregressive Blank Infilling(自回归空格填充法),结合了上述三种预训练模型的思想。
1.2 GLM预训练框架
GLM(General Language Modeling)模型是一种结合了自编码和自回归思想的预训练框架:
(1) 自编码:在输入文本中随机删除连续的tokens,然后顺序重建这些连续的tokens。这种自编码的思想使得GLM能够有效地捕捉文本的内在结构信息。
(2) 自回归:在重建过程中,GLM采用自回归的方式预测缺失的tokens。这意味着模型在预测时既可以访问已经被corrupted的文本,又可以访问之前已经被预测的spans。这种设计使得GLM在处理长文本时具有更高的效率和准确性。
(3)Span shuffling和二维位置编码技术:此外,GLM还引入了Span shuffling和二维位置编码技术。Span shuffling通过改变缺失spans的数量和长度,为条件生成以及无条件生成任务预训练语言模型。二维位置编码则能够更好地捕捉文本中的位置信息,提高模型在理解文本序列中的位置关