生成-理解大一统:一文浅谈多模态大模型最新研究进展

42f0d2bfb384e0ec398a5f6cf6cd2ac3.gif

在过去几年中,多模态智能的两个关键支柱——理解和生成,取得了显著进展。多模态大型语言模型(MLLMs),如 LLaVA,在视觉语言任务(例如视觉问答)中表现出色。同时,去噪扩散概率模型(DDPMs)在文本到图像/视频生成方面也取得了前所未有的成果。

尽管在各自领域取得了这些成就,研究者们开始探索将这两者连接的潜力。近期的研究尝试将来自不同领域的专家模型组合成一个统一系统,以同时处理多模态理解和生成。然而,现有的尝试主要将每个领域独立对待,通常涉及分别负责理解和生成的单独模型。针对这一问题,近期出现了很多工作。

12fabb2333a31f7601ce2bd7b248cf6f.png

Chameleon

ecc847e5dc2c4700a5a60f17a076e92d.png

Chameleon 采用了统一的架构,将图像和文本视为离散的标记,从而能够在任意顺序中处理和生成混合内容。这种“早期融合”的方法使得模型能够跨模态推理和生成真正的混合文档。

Chameleon 的主要特点包括:

  1. 统一建模:通过将不同模态(图像和文本)表示为相同的标记,Chameleon 能够在一个共享的表示空间中进行处理,避免了传统模型中对不同模态使用不同编码器和解码器的限制。

  2. 技术创新:模型在训练过程中采用了新的架构改进和训练技术,如查询-键归一化和层归一化的重新排列,以提高训练的稳定性和可扩展性。

  3. 广泛的应用能力:Chameleon 在视觉问答、图像描述等任务上表现出色,超越了许多现有模型,同时在文本任务中也保持了竞争力。

  4. 人类评估:通过对开放式混合模态生成的评估,Chameleon 在生成质量上显著优于其他强基线模型,如 Gemini-Pro 和 GPT-4V。

1.1 技术细节

Tokenization:Chameleon模型使用了一种新的图像标记器(基于以下工作),将 512 × 512 的图像编码为 1024 个离散标记,这些标记来自 8192 大小的 code book。该标记器的训练仅使用许可的图像,并且为了提高生成包含人脸的图像的能力,在预训练期间将包含人脸的图像比例增加了两倍。然而,该标记器在重建包含大量文本的图像时存在核心弱点,这限制了模型在处理 OCR 相关任务时的能力。

c4b6f552d352e2cbdf361963f883c33d.png

此外,Chameleon 还训练了一种新的 BPE 标记器,词汇量为 65,536,其中包括 8192 个图像代码本标记,使用 sentencepiece 库进行训练。这种双重标记化策略使得模型能够更好地处理文本和图像数据,为后续的混合模态生成和推理奠定了基础。

1.2 预训练数据

作者将预训练阶段划分为两个独立的阶段。第一阶段占据训练的前 80%,而第二阶段占据最后 20%。对于所有文本-图像对,作者旋转数据,使得图像在 50% 的情况下位于文本之前(即图像描述)。

1.3 第一阶段

在第一阶段,作者使用以下大规模完全无监督的数据集的混合:

  • 文本数据:作者使用多种文本数据集,包括用于训练 LLaMa-2 和 CodeLLaMa 的预训练数据,总计 2.9 万亿文本 tokens。

  • 文本-图像数据:用于预训练的文本-图像数据是来自公共可用数据源和许可数据的组合。图像被调整大小并中心裁剪为 512 × 512 的图像进行标记化。总共包括 14 亿文本-图像对,产生 15 万亿文本-图像 tokens。

  • 交织文本/图像数据:作者从公共可用的网络源中获取数据,不包括 Meta 的产品或服务的数据,总计 4000 亿个交织文本和图像数据 tokens。作者对图像应用了与文本-图像相同的过滤。

1.4 第二阶段

在第二阶段,作者将第一阶段数据的权重降低 50%,并混入更高质量的数据集,同时保持图像文本 tokens 的相似比例。作者还包括了来自大型指令微调集的过滤子集。

1.5 推理需求

Chameleon 增强了推理策略,以提高吞吐量并减少延迟。自回归混合模态生成在推理时引入了独特的性能相关挑战,包括:

  • 逐步数据依赖性:由于解码公式根据模型在特定步骤生成图像或文本而变化,因此在每一步必须检查 tokens。

  • 模态约束生成的掩码:为了促进特定模态(例如,仅图像生成)的独占生成,必须掩盖并忽略不属于特定模态空间的 tokens。

  • 固定大小的文本单元:与仅文本生成不同,基于 tokens 的图像生成产生与图像对应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值