MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens
公众号:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料)
目录
0. 摘要
大型语言模型(LLM)因其在自然语言处理方面的进步而受到广泛关注,在文本理解和生成方面展现出无与伦比的能力。 然而,同时带有连贯文本叙述的图像的生成仍然是一个不断发展的前沿领域。 为此,我们引入了一种创新的交错视觉和语言生成技术,该技术以 “生成式 Voken” 的概念为基础,充当协调图像文本输出的桥梁。 我们的方法的特点是独特的两阶段训练策略,专注于无描述的(description-free)多模态生成,其中训练不需要图像的全面描述。 为了增强模型完整性,引入了无分类器指导,从而增强了 vokens 在图像生成方面的有效性。 我们的模型 MiniGPT-5 比 MMDialog 数据集上的基线 Divter 模型有了显着改进,并在 VIST 数据集上的人类评估中始终提供卓越或可比的多模态输出,突出了其在不同基准上的有效性。
1. 简介
在最近大规模视觉和语言模型的发展中,多模态特征集成不仅是一种不断发展的趋势,而且是塑造从多模态对话代理到尖端内容创建工具等广泛应用的关键进步。
- 随着该领域研究和开发的激增,视觉和语言模型(Wu et al., 2023a; Li et al., 2023b; Tsimpoukelli et al., 2021; Alayrac et al., 2022)正处于一个时代的边缘,其中,人们期望它们能够无缝地理解和生成文本和图像内容。这种多方面的能力至关重要,因为它可以促进虚拟现实、媒体和电子商务等各个领域之间的增强互动。
- 本质上,该任务是使模型能够使用视觉和文本模态来连贯地合成、识别和响应,从而协调信息流并创建连贯的叙述。 然而,当我们走上混合文本和视觉模态并实现交错视觉和语言生成的道路时,如图 1 所示,我们认识到这是由大型语言模型中对更集成和更流畅的多模态交互的迫切需求所驱动的。
然而,这段旅程充满了多重挑战。
- 首先,虽然当前最先进的大型语言模型(Large Language Models,LLM)(OpenAI,2023;Chiang et al.,2023;Ouyang et al.,2022)在理解文本和处理文本图像对方面表现出色,但它们在生成精妙艺术图像中却表现不佳 。
- 其次,与受益于详尽图像描述的传统任务不同,新兴的交错视觉和语言任务(Sharma 等人,2018)严重依赖以话题为中心的数据,通常会忽略所有的图像描述符(Huang 等人,2016)。即使在海量数据集上进行训练后,将生成的文本与相应的图像对齐仍然具有挑战性。
- 最后,当我们推动 LLM 的边界时,大内存需求要求我们设计更有效的策略,特别是在下游任务中。
为了解决这些挑战,我们提出了 MiniGPT-5,
- 这是一种以 “生成式 vokens” 概念为基础的创新的交错式视觉和语言生成技术。 通过特殊的视觉标记(Tan & Bansal,2020)——“生成式 vokens” 将稳定扩散机制与 LLM 合并,我们开发了一种多模态生成的新方法。
- 与此同时,我们提出的两阶段训练方法强调了无描述基础阶段的重要性,使模型即使在数据稀缺的情况下也能蓬勃发展。
- 我们的通用阶段没有特定领域的注释,使我们的解决方案与现有的工作不同。
- 为了确保生成的文本和图像协调一致,我们的双损失策略开始发挥作用,并通过我们创新的生成式 voken 方法和无分类器指导进一步增强。
- 我们的参数高效微调策略优化了训练效率并解决了内存限制。
基于这些技术,我们的工作标志着一种变革性的方法。
- 如图 2 所示,使用 ViT(Vision Transformer)和 Qformer(Li 等人,2023b)以及大型语言模型,我们将多模态输入调整为生成式 vokens,与用于上下文感知图像生成的高分辨率稳定扩散 2.1 模型(Rombachet 等人, 2022b)无缝结合。
- 将图像作为辅助输入与指令调整方法相结合,并开创了文本和图像生成损失的先河,我们放大了文本和视觉之间的协同作用。
总之,我们的贡献主要有三方面:
- 我们建议使用一种新颖且通用的技术:多模态编码器,该技术已被证明比 LLM 更有效,并且还可以逆转到生成式 vokens,并将其与稳定扩散相结合以生成交错的视觉和语言输出(可以进行多模态生成的多模态语言模型)。
- 我们重点介绍了一种用于无描述多模态生成的新的两阶段训练策略。单模态对齐阶段从大型文本图像对中获取高质量的文本对齐视觉特征。多模态学习阶段保证视觉和文本提示能够很好地协调生成。在训练阶段加入无分类器指导进一步提高了生成质量。
- 与其他多模态生成模型相比,我们在 CC3M 数据集上实现了最先进的性能。 我们还在著名数据集(包括 VIST 和 MMDialog)上建立了前所未有的基准。
2. 相关工作
文本到图像生成。
- 为了将文本描述转换为相应的视觉表示,文本到图像模型(Reed et al., 2016; Dhariwal & Nichol, 2021; Saharia et al., 2022; Rombach et al., 2022b;a; Gu et al.,2023)采用复杂的架构和复杂的算法,弥合了文本信息和视觉内容之间的差距。这些模型擅长解释输入文本的语义并将其转换为连贯且相关的图像。
- 该领域最近的一个值得注意的贡献是稳定扩散 2(Rombach 等人,2022b),它采用扩散过程来生成条件图像特征,然后根据这些特征重建图像。
- 我们的研究旨在利用这种预先训练的模型,增强其适应多模态输入和输出的能力。
多模态大型语言模型。
- 随着大型语言模型(Large Language Models,LLM)变得越来越有影响力和易于使用,越来越多的研究已经出现,将这些预训练的 LLM 扩展到多模态理解任务领域(Zhu et al., 2023; Li et al., 2023b) ;Dai 等人,2023;OpenAI,2023;Li 等人,2023a;Alayrac 等人,2022)。
- 例如,为了再现 GPT-4(OpenAI,2023)中令人印象深刻的多模态理解能力,MiniGPT-4(Zhu 等人,2023)提出了一个投影层,使用先进的开源大型语言模型 Vicuna(Chiang 等人,2023)来对齐 BLIP 的预训练视觉组件(Li 等人,2023b)。
- 在我们的工作中,我们利用 MiniGPT-4 作为基础模型,并将模型的功能扩展到多模态生成。
使用大型语言模型的多模态生成。
- 为了增强 LLM 无缝集成视觉和语言生成的能力,最近的研究引入了多种创新方法(Ge et al., 2023; Sun et al., 2021; Koh et al., 2023; Sun 等人,2023b;Yu 等人,2023)。
- 例如,CM3Leon(Yu et al., 2023)提出了一种增强检索、仅解码器的架构,专为文本到图像和图像到文本应用程序而设计。
- 类似地,Emu (Sun et al., 2023b) 采用预训练的 EVA-CLIP (Sun et al., 2023a) 模型将图像转换为一维特征,并通过自回归技术对 LLAMA (Touvron et al., 2023) 模型进行微调以生成相关的文本和图像特征。
- 另一方面,GILL(Koh 等人,2023)和 SEED(Ge 等人,2023)都探索了将 vokens 映射到预训练稳定扩散模型的文本特征空间的概念; GILL 采用编码器-解码器框架,而 SEED 采用可训练的 Q-Former 结构。
- 与这些方法相比,我们的模型通过将 voken 特征与视觉信息对齐,采取了更直接的路线。 此外,我们引入了几种旨在增强图像质量和上下文连贯性的训练策略。
3. 方法
为了赋予大语言模型多模态生成能力,我们引入了一个集成了预训练的多模态大语言模型和文本到图像生成模型的结构化框架。 为了解决模型领域之间的差异,我们引入了特殊的视觉标记(称为“生成式 vokens”),它能够直接对原始图像进行训练。 此外,我们提出了两阶段训练方法,加上无分类器指导策略,以进一步提高生成质量。 后续部分将详细探讨这些元素。
3.1 多模态输入阶段
多模态大语言模型(例如 MiniGPT-4)的最新进展主要集中在多模态理解上,从而能够将图像作为顺序输入进行处理。 为了将其能力扩展到多模式生成,我们引入了为输出视觉特征而设计的生成 voken。 此外,我们在大语言模型 (LLM) 框架内采用尖端、参数高效的微调技术来进行多模态输出学习。 以下段落将更详细地介绍这些发展。
多模态编码:每个文本标记都嵌入为向量 e_text ∈ R^d,而预训练的视觉编码器将每个输入图像转换为特征 e_img ∈ R^(32×d)。 这些嵌入被连接起来以创建输入提示功能。
在 LLM 中添加 Vokens:
- 由于原始 LLM 的词汇表 V 仅包含文本标记,因此我们需要在 LLM 和生成模型之间构建一座桥梁。
- 我们把一组特殊标记 V_img = { [IMG1], [IMG2], ... , [IMGn] }(默认 n = 8)作为生成式 vokens 引入 LLM 词汇表 V 。 这些 voken 的 LLM 输出隐藏状态用于后续图像生成,并且这些 voken 的位置可以表示交错图像的插入位置。
- 在 MiniGPT-4 中所有预训练权重 θ_pretrained 固定的情况下,可训练参数包括额外的输入嵌入 θ_voken-input 和输出嵌入 θ_voken-output。
参数高效微调(Parameter-Efficient Fine-Tuning,PEFT):
- 参数高效微调(PEFT)(Houlsby et al., 2019; Hu et al., 2021; Li & Liang, 2021)对于训练大型语言模型(LLM)至关重要 。尽管如此,它在多模态环境中的应用在很大程度上仍未得到探索。
- 我们在 MiniGPT-4(Zhu et al., 2023)编码器上使用 PEFT 来训练模型以更好地理解指令或提示,从而增强其在新颖甚至零样本任务中的性能。更具体地说,我们尝试了在整个语言编码器(MiniGPT-4 中使用的 Vicuna(Chiang 等人,2023))上尝试前缀(prefix)调整(Li&Liang,2021)和 LoRA 。 与指令调整相结合,它显着增强了跨各种数据集(例如 VIST 和 MMDialog)的多模态生成性能。
3.2 多模态输出生成
为了准确地将生成标记与生成模型对齐,我们制定了一个用于维度匹配的紧凑映射模块,并结合了多种监督损失,包括文本空间损失和潜在扩散模型损失。
- 文本空间损失帮助模型学习标记的正确位置,而潜在扩散损失直接将标记与适当的视觉特征对齐。
- 由于生成式 voken 的特征直接由图像引导,因此我们的方法不需要图像的全面描述,从而实现无描述学习。
文本空间生成:
我们首先按照因果语言建模在文本空间中联合生成文本和 voken。在训练过程中,我们将 voken 附加到地面真实图像的位置,并训练模型以预测文本生成中的 voken。 具体来说,生成的 token 表示为 T = {t_1, t_2, ..., t_m},其中 t_i ∈ V ∪ V_img,因果语言建模损失定义为:
映射用于图像生成的 Voken 特征:接下来,我们将输出隐藏状态 h_voken 与文本到图像生成模型的文本条件特征空间对齐。为了将 voken 特征 h_voken 映射到可行的图像生成条件特征 e_text-encoder ∈ R^(L׈d)(其中 L 是文本到图像生成文本编码器的最大输入长度,ˆd 是文本到图像生成模型中的编码器输出特征的维度),我们构建了一个特征映射器模块,包括一个两层 MLP 模型θ_MLP,一个四层编码器-解码器 transformer 模型 θ_enc-dec 和一个可学习的解码器特征序列 q。 映射特征 ˆh_voken 由下式给出:
使用潜在扩散模型(LDM)生成图像:为了生成适当的图像,映射特征 ˆh_voken 被用作去噪过程中的条件输入。 直观上,ˆh_voken 应该代表相应的文本特征,指导扩散模型生成地面实况图像。 我们使用潜在扩散模型(LDM)的损失作为指导。 在训练过程中,地面实况图像首先通过预训练的 VAE 转换为潜在特征 z_0。 然后,我们通过将噪声 ϵ 添加到 z_0 来获得噪声潜在特征 z_t。 使用预训练的 U-Net 模型 ϵ_θ 来计算条件 LDM 损失:
这种综合方法利用预训练模型、专门化的标记和创新训练地技术等功能,确保对文本和视觉元素的理解和生成一致。
3.3 训练策略
鉴于文本和图像域之间不可忽略的域偏移,我们观察到对有限的交错文本和图像数据集进行直接训练可能会导致错位和图像质量下降。
- 因此,我们采用两种不同的培训策略来缓解这个问题。
- 第一个策略包括结合无分类器指导(Ho & Salimans,2022)技术,该技术在整个扩散过程中增强了生成标记的有效性。
- 第二种策略分两个阶段展开:最初的预训练阶段专注于粗略特征对齐,然后是致力于复杂特征学习的微调阶段。
无分类器指导(Classifier-free Guidance,CFG):
为了增强生成的文本和图像之间的连贯性,我们首先利用无分类器指导的思想进行多模态生成。
无分类器引导在文本到图像的扩散过程中引入。 该方法观察到,通过使用条件 dropout 对条件生成和无条件生成进行训练,生成模型 P_θ 可以实现改进的条件结果。
在我们的背景下,我们的目标是强调可训练条件 h_voken 并且生成模型是固定的。 在训练过程中,我们以 10% 的概率将 h_voken 替换为零特征 h_0 ∈ 0^(n×d),得到无条件特征
推理过程中,^h_0 作为负提示,精炼的去噪过程表示为:
两阶段训练策略:认识到纯文本生成和文本图像生成之间的重要领域转变,我们提出了两阶段训练策略:单模态对齐阶段(Unimodal Alignment Stage,UAS)和多模态学习阶段(Multimodal Learning Stage,MLS)。
最初,我们将 voken 特征与单个文本图像对数据集(例如 CC3M)中的图像生成特征对齐,数据集中每个数据样本仅包含一个文本和一张图像,并且文本通常是图像的标题。 在此阶段,我们利用标题作为 LLM 输入,使 LLM 能够生成 voken。 由于这些数据集包含图像描述信息,我们还引入了辅助损失来帮助 voken 对齐,从而最小化文本到图像生成模型中生成特征 ˆh_voken 和来自文本编码器 τ_θ 的标题特征之间的距离:
单峰对齐阶段损失表示为 LUAS = λ1 *L_text +λ2 *L_LDM +λ3 *L_CAP,选择值 λ1 = 0.01、λ2 = 1、λ3 = 0.1 将损失重新调整到类似的数值范围。
在单模态对齐阶段之后,
- 该模型能够为单个文本描述生成图像,但在交错的视觉和语言生成方面遇到困难,其中包括多个文本图像对,并且需要对文本和图像生成进行复杂的推理。
- 为了解决这个问题,在多模态学习阶段,我们通过交错的视觉和语言数据集(例如 VIST)进一步使用 PEFT 参数来微调我们的模型,其中数据样本具有文本图像和文本顺序相关的多个步骤。
- 在此阶段,我们从数据集中构建三种类型的任务,包括(1)纯文本生成:给定下一个图像,生成相关文本; (2)仅图像生成:给定下一个文本,生成相关图像,以及(3)多模态生成:通过给定上下文生成文本图像对。
- 多模态学习阶段损失由 LMLS = λ1 * L_text + λ2 * L_LDM 给出。
- 更多实现细节可以在附录 A 中找到。
4. 实验
为了评估我们模型的有效性,我们对多个基准进行了一系列评估。 这些实验旨在解决几个关键问题:(1)我们的模型能否生成可信的图像和合理的文本? (2) 在单轮和多轮交错视觉和语言生成任务中,我们的模型的性能与其他最先进的模型相比如何? (3)各个模块的设计对整体性能有什么影响? 在接下来的小节中,我们将深入研究用于这些评估的数据集和实验设置,然后对我们的模型的性能进行全面分析。 我们使用三个数据集:CC3M (Sharma et al., 2018)、VIST (Huang et al., 2016) 和 MMDialog (Feng et al., 2022)。 有关数据集和数据格式的更多详细信息,请参阅附录 B。
4.1 实验设置
为了全面评估我们在多模态生成方面的表现,我们与几个著名的基线模型进行了比较分析:精调的单模态生成模型、GILL 和 Divter。
精调的单模态生成模型:为了促进图像和文本生成的公平比较,我们利用 VIST 数据集微调了两个单独的模型:Stable Diffusion 2.1 和 MiniGPT-4。 在稳定扩散 2.1 模型中,U-Net 参数未冻结。 对于 MiniGPT-4 的 LLM 部分,LoRA 参数进行了微调。
GILL(Koh 等人,2023):GILL 是一项最新创新,允许 LLM 使用用于单图像生成的预训练文本到图像生成模型来生成的 voken。 与我们采用条件生成损失指导的方法不同,GILL 最大限度地减少了文本到图像文本编码特征和 voken 特征之间的均方误差 (MSE) 损失,类似于我们方法中的 LCAP。 由于他们的方法需要图像描述来进行训练,因此我们仅在单模态对齐阶段与它进行比较。 (为了确保公平比较,考虑到CC3M数据集中有效数据的变化以及GILL中最初使用的Stable Diffusion 1.5,我们进行了调整。具体来说,我们将他们的文本到图像生成模型切换为稳定扩散 2.1,并按照官方实现中的指南,在我们的特定 CC3M 数据上对其进行了重新训练。 (https://github.com/kohjingyu/gill))
Divter (Sun et al., 2021):Divter 是一款专为多模态对话环境开发的最先进的对话代理。 它引入了用于生成多模态响应的定制 transformer 结构。 Divter 的方法包括对大量纯文本对话和文本图像对进行预训练,然后对一组选定的多模态响应数据进行微调。 MMDialog 数据集以 Divter 的方法为基线。
指标。
- 为了全面评估图像、文本和多模态维度的模型性能,我们采用了一组不同的指标。
- 为了评估生成图像的质量和多样性,我们利用 IS(Salimans 等人,2016)和 FID(Heusel 等人,2017)。
- 文本性能通过 BLEU (Papineni et al., 2002)、Rouge-L (Lin, 2004)、METEOR (Banerjee & Lavie, 2005) 和 Sentence-BERT (S-BERT) (Reimers & Gurevych, 2019) 分数等指标来衡量 。
在多模态方面,
- 我们利用基于 CLIP 的指标(Rombach 等人,2022b)来评估生成的内容和真实情况之间的一致性。 CLIP-I 评估生成图像和真实图像之间的相似性,而 CLIP-T 则侧重于生成图像和真实文本之间的一致性。
- 为了解决多模态生成中潜在的错位问题(例如当地面真实仅是文本,但输出是多模态时),我们利用 MM-Relevance (Feng et al., 2022)。 该指标根据 CLIP 相似性计算 F1 分数,提供对多模态一致性的细致评估。
- 我们还采用人类偏好评分 (HPS) v2(Wu 等人,2023c)来评估生成的图像与基于人类偏好的输入文本提示的一致程度。
认识到生成的多模态输出可能有意义但与真实情况不同,我们还结合人类评估来评估模型的性能。 我们从三个角度检查模型的有效性:
- (1) 语言连续性 - 评估生成的文本是否与所提供的上下文无缝对齐,
- (2) 图像质量 - 评估生成图像的清晰度和相关性
- (3) 多模态一致性 - 确定组合的文本图像输出是否与初始上下文一致。
4.2 实验结果
在本节中,我们将定量分析不同训练阶段的不同基准上的模型性能。 定性示例如图 4 所示。
4.2.1 多模态学习阶段
在本小节中,我们展示了不同模型在 VIST(Huang 等人,2016)和 MMDialg(Feng 等人,2022)数据集上的性能。 我们的评估涵盖视觉(图像相关指标)和语言(文本指标)领域,以展示所提出模型的多功能性和鲁棒性。
VIST 最终步骤评估。我们的第一组实验涉及单步评估,其中根据最后一步的提示,模型旨在生成相应的图像。 表 1 总结了此设置的结果。 MiniGPT-5 在所有三种设置下的性能均优于微调后的 SD 2,显示了 MiniGPT-5 管道的优势。值得注意的是,MiniGPT-5 (LoRA) 模型在多种提示类型的 CLIP 分数方面始终优于其他变体,尤其是在组合图像和文本提示时。另一方面,FID 分数突出了 MiniGPT-5(Prefix)模型的竞争力,表明图像嵌入质量(由 CLIP 分数反映)与图像的多样性和真实性(由 FID 分数捕获)之间可能存在权衡。与在 VIST 上直接训练而未结合单模态对齐阶段的模型(MiniGPT-5 w/o UAS)相比,很明显,虽然该模型保留了生成有意义图像的能力,但图像质量和一致性显着下降。 这一观察结果强调了我们的两阶段训练策略的重要性。
VIST 多步骤评估。在详细而全面的评估中,我们系统地提供具有先前历史背景的模型,并随后评估每个后续步骤生成的图像和叙述。 表 2 和表 3 概述了这些实验的结果,分别封装了图像和语言指标的性能。 研究结果表明,MiniGPT-5 能够利用所有数据的长水平(long-horizontal)多模态输入提示生成连贯的高质量图像,而不会影响原始模型的多模态理解能力。 这强调了我们的模型在不同环境中的有效性。
VIST 人类评估。为了评估多模态生成的质量,我们在 VIST 验证集上测试了我们的模型和基线。 对于每个任务,给定前面的多模态序列,模型的任务是生成后续场景。 为了确保公平比较,我们采用了经过微调的 MiniGPT-4,它经过专门训练,可以在没有任何 voken 的情况下生成旁白。 随后,这些旁白通过文本到图像管道直接合并到 Stable Diffusion 2 中。 我们随机选择了 5,000 个序列样本,每个序列都需要两名工作人员进行评估。 这些评估人员的任务是根据三个标准(语言连续性、图像质量和多模态一致性)确定卓越的多模态输出。 使用 Amazon Mechanical Turk(Crowston,2012)促进了这一评估,附录中提供了一个代表性示例(图 5)。 如表 4 所示,我们的模型 MiniGPT-5 在 57.18% 的情况下生成更合适的文本叙述,在 52.06% 的情况下提供卓越的图像质量,并在 57.62% 的情况下产生更连贯的多模态输出。 与使用旁白进行文本到图像提示而不包含语音的两阶段基线相比,该数据清楚地展示了其增强的多模态生成能力。
MMDialog 多轮评估。我们在 MMDialog 数据集上对我们的方法进行了评估,以确定在多轮对话场景中生成精确且适当的多模态信息的有效性。 该模型需要根据此数据集中对话期间的先前回合生成单模态或多模态响应。 我们的结果如表 5 所示,表明 MiniGPT-5 在生成更准确的文本响应方面优于基线模型 Divter。 虽然生成的响应的图像质量相似,但与基线模型相比,MiniGPT-5 在 MM 相关性方面表现出色。 这表明我们的模型可以更好地学习如何适当定位图像生成并产生高度一致的多模态响应。
4.2.2 单模态对齐阶段
我们不是对具有多轮多模态数据的数据集进行评估,而是评估单图像数据集 CC3M(Sharma 等人,2018)中的模型,如表 6 所示。在此阶段,模型接受图像描述的输入并生成相应的图像,这是典型的文本到图像任务,但与生成式标记结合。 结果表明,虽然我们的模型在多回合场景下可以有更好的生成,但 Stable Diffusion 2 在单图像生成的所有指标上都取得了最佳结果。 由于我们的模型在此阶段尝试与 Stable Diffusion 2 的预训练文本编码器保持一致,因此由于数据量的限制,性能上存在轻微差距。 与 VIST 数据集上的观察结果相比,我们可以得出结论,MiniGPT-5 可以正确地从长水平多模态信息而不是单个文本输入中提取特征。 这表明了如何有效地将 LLM 与生成模型结合起来的未来方向。 另一方面,我们的模型在所有指标上都优于另一个最先进的多模态生成模型 GILL。 我们的模型生成更连贯和高质量的图像,与预训练的稳定扩散模型生成的图像非常相似。 为了进一步评估我们设计的有效性,我们进行了多项消融研究,更多关于 voken 数和 CFG 量表的消融研究可以在附录 C 中找到。
不同损失指导的评估:如第 3.3 节所述,我们引入了用于 CC3M 训练的辅助损失(表示为 L_CAP)。 为了评估这种损失的影响并确定单个标题损失是否可以生成像 GILL 这样的高质量图像,我们在没有标题损失 LCAP 的情况下训练了我们的模型(映射的生成式 voken 特征与来自稳定扩散文本编码器的标题特征之间的对齐)和条件潜在扩散损失 L_LDM(映射的生成式 voken 特征与地面实况图像潜在扩散过程的条件特征之间的对齐)。 结果如表 6 所示,表明标题损失显着有助于生成更好的图像,而条件潜在扩散损失进一步增强了相干性和图像质量方面的性能。
无分类器指导 (Classifier-Free Guidance,CFG) 的评估:为了评估 CFG 策略的有效性,我们在没有 CFG 下降的情况下训练了我们的模型。 在推理过程中,模型利用了原始的 CFG 去噪过程,即利用 Stable Diffusion 2 文本编码器中的空标题特征作为负提示特征。 表 6 中的结果表明,如果没有 CFG,所有指标都会变差,这表明 CFG 训练策略提高了图像生成质量。
使用人类偏好评分 (Human Preference Score,HPS) 进行评估:为了更好地评估我们模型的有效性及其各个组成部分,我们采用了人类偏好评分 v2 (HPSv2)(Wu 等人,2023b)。 图 3 显示了具有最高 HPS 的每个模型生成的图像数量。 值得注意的是,MiniGPT-5 始终优于其竞争对手,强调了损失的重要性以及我们的方法中实施的无分类器引导技术。
5. 结论
在本文中,我们介绍了 MiniGPT-5,旨在通过将 LLM 与预训练的文本到图像生成模型对齐来增强 LLM 的多模态生成功能。 正如综合实验所证明的那样,我们的方法展示了显着的改进。 通过这项工作,我们渴望在多模态生成模型中树立新的基准,为以前因现有图像和文本合成范式的脱节性质而被视为具有挑战性的应用程序打开大门。
S. 总结
S.1 主要贡献
本文提出 MiniGPT-5,将多模态编码器与稳定扩散结合以生成交错的视觉和语言输出。它以 “生成式 Voken” 的概念为基础,通过将 LLM 与预训练的文本到图像生成模型对齐,来生成带有连贯文本叙述的图像。
介绍了一种用于无描述多模态生成的两阶段训练策略。单模态对齐阶段从大型文本图像对中获取高质量的文本对齐视觉特征。多模态学习阶段保证视觉特征和文本提示能够很好地协调来生成。
在训练阶段加入了无分类器指导来增强生成的文本和图像之间的连贯性,从而增强了 vokens 在图像生成方面的有效性。
S.2 架构和方法
本文的架构如图 2 所示。
多模态输入阶段:除了使用相应的编码器将输入文本和图像编码外,还要在 LLM 的词汇表中引入一组特殊标记作为 voken(这些 voken 的 LLM 输出隐藏状态用于后续图像生成,并且这些 voken 的位置可以表示交错图像的插入位置),从而在 LLM 和生成模型之间构建一座桥梁。
多模态输出阶段:
- 使用文本空间损失和潜在扩散模型损失将生成标记与生成模型对齐。
- 文本空间损失帮助模型学习标记的正确位置,而潜在扩散损失直接将标记与适当的视觉特征对齐。
- 由于生成式 voken 的特征直接由图像引导,因此该方法不需要图像的全面描述,从而实现无描述学习。
训练阶段使用两阶段训练策略: 单模态对齐阶段和多模态学习阶段。
- 第一阶段引入了辅助损失对齐文本到图像生成模型中生成特征和来自文本编码器的标题特征。
- 第二阶段使用交错的视觉和语言数据集进一步使用参数高效微调(PEFT)来微调模型,从而解决交错的视觉和语言生成(包括多个文本图像对,并且需要对文本和图像生成进行复杂的推理)方面的问题。