论文粗读系列-4:BLIP-Diffusion

BLIP-Diffusion是一种新型的文本驱动图像生成模型,通过预训练的多模态编码器生成与文本一致的主题表示,实现零样本主体生成和高效微调。模型能与现有技术结合,支持主题生成和编辑,展示了在图像生成和编辑方面的灵活性。
摘要由CSDN通过智能技术生成

论文粗读系列-4

BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing

1.简介

arxiv [ 22 Jun 2023 ]

链接:[2305.14720] BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing (arxiv.org)

代码:LAVIS/projects/blip-diffusion at main · salesforce/LAVIS · GitHub

主题驱动的文本到图像生成模型基于文本提示创建输入主题的新颖再现。

现有的模型需要进行长时间的微调,并且难以保持主体的保真度。为了克服这些限制,作者引入了BLIP-Diffusion,这是一种新的主题驱动图像生成模型,支持多模态控制,它消耗主题图像和文本提示的输入。与其他主题驱动的生成模型不同,BLIP-Diffusion引入了一种新的多模态编码器,该编码器经过预训练以提供主题表示。作者首先根据BLIP-2对多模态编码器进行预训练,以产生与文本对齐的视觉表示。然后,作者设计了一个主题表征学习任务,使扩散模型能够利用这种视觉表征并生成新的主题表征。与DreamBooth等之前的方法相比,本文提出的模型可以实现零拍摄主体驱动生成,并对定制主体进行高效微调,加速高达20倍。作者还证明,BLIPDiffusion可以灵活地与现有技术(如ControlNet和prompt-to-prompt)相结合,以实现新颖的主题驱动生成和编辑应用程序。

2.方法

作者采用BLIP-2编码器提取多模态主语表示,然后与文本提示符一起使用来指导生成。

在这里插入图片描述

本文的目标是学习主题表示,捕获主题特定的视觉外观,同时与文本提示保持一致。为此,作者提出了一个两阶段的预训练策略,如图所示。

首先,多模态表示学习阶段产生与文本对齐的通用图像表示。

然后,主题表征学习阶段促使文本和主题表征扩散模型进行主题驱动生成。

  • Multimodal Representation Learning with BLIP-2

作者使用Stable Diffusion作为潜在扩散模型,该模型依赖CLIP文本编码器生成提示嵌入。

为了指导同时使用文本和主题表示的生成,主题嵌入和文本嵌入必须很好地对齐,以确保它们能够相互配合。

受视觉语言预训练模型BLIP-2的启发,作者决定将其用于提取文本对齐的主题表示。该模型可以产生高质量的文本对齐视觉表示。具体来说,如图所示,作者使用了BLIP -2中的两个主要模块来学习多模态表示:一个冻结的预训练图像编码器用于提取通用图像特征,一个多模态编码器(即Q-Former)用于图像-文本对齐。多模态编码器是一个转换器,它接受固定数量的可学习查询令牌和输入文本。查询令牌通过自关注层与文本交互,并通过交叉关注层与冻结的图像 特征交互,并产生与文本对齐的图像特征作为输出。输出的维度与查询令牌的数量相同。

在BLIP-2预训练之后,作者联合训练了三个视觉语言预训练目标,包括通过最大化文本和图像的相互信息来对齐文本和图像表示的图像-文本对比学习(ITC)损失,为输入图像生成文本的基于图像的文本生成(ITG)损失,以及通过二值预测捕获细粒度图像文本对齐的图像-文本匹配(ITM)损失。作者对通用的图像-文本配对数据进行多模态表示学习,这允许模型学习不同的视觉和文本概念集。

  • Subject Representation Learning with Stable Diffusion

作为多模态表示学习的结果,作者获得了输入图像的文本对齐视觉表示。这些特征捕获输入图像的一般语义信息。然而,它们并不是专门为扩散模型提供指导的。为此,主题表征学习阶段旨在使扩散模型能够利用这种视觉表征,并结合文本提示生成主题的不同再现。特别是,当将主题表示注入扩散模型时,作者考虑了两个期望的性质。首先,作者希望主题表示与文本提示能够很好地协调,以实现文本引导的主题驱动生成。在这方面,以前的方法没有解决训练期间的文本提示。因此,它们不适合直接用于可扩展的预训练。其次,理想情况下应该保持基本扩散模型的行为。这使得主题驱动的生成模型能够利用建立在原始模型之上的动态技术,例如图像编辑和结构控制生成。

在这里插入图片描述

模型结构。作者将BLIP-2多模态编码器的输出连接到扩散模型的文本编码器的输入。在预训练过程中,多模态编码器以主题图像和主题类别文本作为输入,产生类别感知的主题视觉表示。然后使用两个线性层组成的前馈层转换主题表示,中间有GELU激活。投影特征作为软视觉主题提示附加到文本提示标记嵌入中。具体来说,当结合文本标记和主题嵌入时,作者使用模板“[text prompt], the [subject text] is [subject prompt]"。最后,结合的文本和主题嵌入通过CLIP文本编码器,作为扩散模型生成输出图像的指导。软视觉提示对底层扩散模型的架构改变最小,提供了注入主题表示的有效解决方案,同时在很大程度上继承了底层扩散模型的建模能力

具有提示上下文生成的主题通用预训练。作者的目标是对模型进行预训练,使其学会从输入图像中表示一般的主题。为此,一种简单的方法是使用相同的图像作为多模态编码器的输入和扩散模型的输出。然而,初步实验表明,这会导致一些琐碎的解决方案受到输入背景的严重干扰,甚至模型复制输入图像作为输出,导致生成不尊重文本提示。另一方面,虽然可以在不同的背景下收集同一主题的多幅图像,从而使用不同的图像作为输入和目标,但这种方法很难扩展到通用主题。

为了解决这些问题,作者提出了一种新的预训练任务,用于学习主题通用表示,称为提示上下文生成,其中通过在随机背景中合成主题的图像来策划输入-目标训练对。该模型以合成的主题图像为输入,根据文本提示生成原始主题图像作为输出。具体来说,给定一张包含主题的图像,作者首先将图像和主题的类别文本提供给文本提示分割模型CLIPSeg,并使用置信度阈值。然后将置信度较高的分割图作为已知前景,置信度较低的分割图作为不确定区域,其余的分割图作为已知背景,构建一个三图。给定三坐标图,作者使用封闭形式的抠图来提取前景,即主体。然后通过alpha混合将提取的主题组合到随机背景图像上。最后,将合成图像作为输入,将原始主题图像作为输出,作为一个训练图像对。

  • Fine-tuning and Controllable Inference

预训练的主题表示支持Zero-shot生成和对特定自定义主题的有效微调。此外,模型在继承底层扩散模型的建模能力的同时提供了高级的视觉控制。这使模型能够利用已建立的图像生成和编辑技术,以BLIP-Diffusion作为基础生成模型。

特定主题的微调和推断。预训练的通用主题表示可以对高度个性化的主题进行有效的微调。给定少量主题图像和主题类别文本,首先使用多模态编码器分别获得主题表示。然后,使用所有主题图像的平均主题表示初始化主题提示嵌入。通过这种方式,缓存主题提示嵌入,而不需要在微调期间前向传递多模态编码器。通过考虑文本提示嵌入和平均主题嵌入,对扩散模型进行微调,生成主题图像作为目标。作者还冻结了扩散模型的文本编码器,这有助于抵消对目标图像的过拟合。

结构控制生成与ControlNet。模型引入了主体控制的多模态条件作用机制。同时,该架构还兼容与ControlNet集成,实现结构控制和主体控制同时生成。图说明了这种集成,其中通过残差将预训练的ControlNet的U-Net附加到BLIP-Diffusion的U-Net。这样,模型除了考虑主题线索外,还考虑了输入结构条件,如边缘图和深度图。由于模型继承了原始潜在扩散模型的架构,使用现成的集成与预训练的ControlNet,而无需进一步的训练,观察到令人满意的生成。

主题驱动的编辑与注意力控制。模型结合了主题提示嵌入和文本提示嵌入,用于多模态控制生成。受prompt-to-prompt的启发,模型通过操纵提示符号的交叉注意映射来实现主题驱动的图像编辑。在图中展示了这种功能,其中模型使用特定于主题的视觉效果编辑原始图像。为此,作者假设原始图像的生成过程是已知的,或者对于真实图像可以通过反演得到。要编辑图像,首先指定要编辑的文本标记,例如标记“dog”。接下来,作者使用指定标记的交叉注意映射来自动提取要编辑的区域的掩码。为了保留未编辑区域的布局和语义,作者保留了原始生成的注意图,同时为插入的主题嵌入生成新的注意图。在提取编辑掩码的基础上,对每一步进行去噪。即,未编辑区域的潜能来自原始世代,而编辑区域的潜能来自主题驱动世代。通过这种方式,作者获得了具有特定主题视觉效果的编辑图像,同时保留了未编辑的区域。

3.狗头保命

以上观点均为本人对于原文的粗鄙理解,仅作为个人学习笔记,如有错误烦请指正,如有侵权请联系我删除。

不摆了,加训!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值