AI多模态模型架构之LLM主干(1):ChatGLM系列

探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活

本文作者:AIGCmagic社区   刘一手

前言

AI多模态大模型发展至今,每年都有非常优秀的工作产出,按照当前模型设计思路,多模态大模型的架构主要包括以下几个部分:

  1. 模态编码器(Modality Encoder, ME):负责将不同模态的输入编码成特征。常见的编码器包括图像的NFNet-F6、ViT、CLIP ViT等,音频的Whisper、CLAP等,视频编码器等。

  2. 输入投影器(Input Projector):负责将其他模态的特征投影到文本特征空间,并与文本特征一起输入给语言模型。常用的投影器包括线性投影器、MLP、交叉注意力等。

  3. 语言模型骨架(LLM Backbone):利用预训练的语言模型,负责处理各种模态的特征,进行语义理解、推理和决策。常用的语言模型包括Flan-T5、ChatGLM、LLaMA等。

  4. 输出投影器(Output Projector):负责将语言模型输出的信号转换成其他模态的特征,以供后续模态生成器使用。常用的投影器包括Tiny Transformer、MLP等。

  5. 模态生成器(Modality Generator, MG):负责生成其他模态的输出。常用的生成器包括图像的Stable Diffusion、视频的Zeroscope、音频的AudioLDM等。


本文一手会详细解读AI多模态架构中的语言模型骨架(LLM Backbone),并从ChatGLM系列、Qwen系列、LLaMA系列三个代表性工作,总结当前主流的工作方案!持续更新,欢迎关注。

在当今人工智能时代,大模型无疑是最引人注目的焦点之一。它们以其强大的自然语言处理能力和广泛的应用场景,正在逐渐改变我们的工作和生活方式。

一、ChatGLM的前世今生

论文链接:https://arxiv.org/abs/2103.10360

代码链接:https://github.com/THUDM/ChatGLM-6B

在这些引人注目的大模型中,ChatGLM系列无疑是一个值得关注的存在。本文将深入探讨ChatGLM大模型系列的前世今生,揭示其背后的技术原理和发展历程,以及它如何成为当今自然语言处理领域的一颗璀璨明珠。

1.1 背景

主流的大模型预训练框架主要有三种:AutoRegressive自回归模型(AR模型)、AutoEncoding自编码模型(AE模型)和Encoder-Decoder(Seq2seq模型)。这三种模型各有其独特的特点和应用场景。

(1) AutoRegressive自回归模型(AR模型)的代表作是GPT。这种模型本质上是一个left-to-right的语言模型,主要应用于生成式任务。在长文本生成方面,AR模型取得了巨大的成功,例如在自然语言生成(NLG)领域的任务,如摘要、翻译或抽象问答。当扩展到十亿级别参数时,AR模型表现出了少样本学习能力。然而,其单向注意力机制也存在一定的局限性,在自然语言理解(NLU)任务中,无法完全捕捉上下文的依赖关系。

(2) AutoEncoding自编码模型(AE模型)的代表作是BERT。这种模型是通过某个降噪目标(比如MLM)训练的双向文本编码器。编码器会产出适用于NLU任务的上下文表示,但在文本生成方面,AE模型无法直接应用。

(3) Encoder-Decoder(Seq2seq模型)的代表作是T5。这种模型采用双向注意力机制,主要应用于条件生成任务,如文本摘要、机器翻译等。

这三种预训练框架各有利弊,没有一种框架在自然语言理解(NLU)、无条件生成以及条件生成这三种领域的表现最佳。T5曾经尝试使用多任务学习(MTL)的方式统一上述框架,然而自编码和自回归目标天然存在差异,简单的融合自然无法继承各个框架的优点

在这个天下三分的僵持局面下,GLM模型应运而生。GLM模型基于Autoregressive Blank Infilling(自回归空格填充法),结合了上述三种预训练模型的思想。

1.2 GLM预训练框架

GLM(General Language Modeling)模型是一种结合了自编码和自回归思想的预训练框架:

(1) 自编码:在输入文本中随机删除连续的tokens,然后顺序重建这些连续的tokens。这种自编码的思想使得GLM能够有效地捕捉文本的内在结构信息。

(2) 自回归:在重建过程中,GLM采用自回归的方式预测缺失的tokens。这意味着模型在预测时既可以访问已经被corrupted的文本,又可以访问之前已经被预测的spans。这种设计使得GLM在处理长文本时具有更高的效率和准确性。

(3)Span shuffling和二维位置编码技术:此外,GLM还引入了Span shuffling和二维位置编码技术。Span shuffling通过改变缺失spans的数量和长度,为条件生成以及无条件生成任务预训练语言模型。二维位置编码则能够更好地捕捉文本中的位置信息,提高模型在理解文本序列中的位置关

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值