文生图可控生成之T2I-adapter原理

T2I-Adapter是一种轻量级网络结构,用于提升文生图模型的可控能力,它作为独立插件与预训练模型结合,不改变原有模型。通过Adapter,可以利用额外的控制信息,如颜色、结构,进行更精细化的生成控制。该方法具有即插即用、简单、灵活和强泛化性的特点。在训练中,仅优化Adapter参数,保持预训练模型参数固定,通过非均匀采样策略提高控制效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

在前面的文章中,我们介绍过了使用ControlNet来控制文生图模型生成图片,今天介绍将要介绍的T2I-Adapter在功能方面完全与ControlNet一样,但是网络结构完全不同,相比起来更加轻量化,并且个人认为 T2I-Adapter 的网络结构更具有代表性,未来在控制方面有更大的概率都会以 T2I-Adapter 的网络结构呈现,即直接将额外的控制信息直接和 text embedding 一起注入到 Unet 中

1. 动机及贡献

文生图模型近年来已经取得巨大进展,能够生成非常逼真的图片,但是完全使用文本来控制模型生成,并不能充分发挥出模型的性能,本文的目的就是想通过其他控制信息来挖掘文生图模型的能力,从而提升模型更加精细化控制的能力。对此,作者提出了一个简单且轻量化的 T2I-Adapter 来对齐模型内部知识和其他额外的控制信号,这样的话,开发者可以根据不同条件训练多个adapter来实现更加丰富的控制。

T2I-Adapter 作为独立于预训练的文生图模型外的控制网络,具有以下优点:

  • 即插即用:它不会改变原始的文生图预训练模型(如SD1.5/ SDXL等)的结构和性能,它作为一种插件存在。
  • 简单和轻量化:能够以很小的训练代价与已有的预训练文生图模型结合,整个插件模型只有 77M 的参数,大约只占300M的存储空间
  • 灵活使用:可以根据不同的控制条件训练各种adapter,包括颜色、复杂结构的控制等,并且多个adapter可以组合使用,实现更复杂的控制
  • 泛化性强:经过一次训练,它可被用在各种以相同base模型finetune后的模型上

2. Method

T2I-Adapter 的整体结构如下图所示,它由一个预训练的SD模型和一些adapters组成,这些adapter用于抽取不同控制条件的特征,预训练的SD模型的参数是固定的,它根据输入的文本特征和其他控制条件特征来生成图片。
在这里插入图片描述

2.1 Adapter 设计

Adapter 设计成了一种轻量化结构,如上图右下角所示,它由4个特征抽取块和3个下采样块组成,控制条件的原始输入分辨率是 512 × 512 512 \times 512 512×512,这里使用了 pixel unshuffle 操作将输入下采样到 64 × 64 64 \times 64 64×64 分辨率。如上图右下角所示,每个scale中包含一个卷积层和两个残差块,来抽取输入条件的特征 F c k F_c^k Fck ,最终构成多个层面的特征 F c = { F c 1 , F c 2 , F c 3 , F c 4 } \mathbf{F}_c=\{\mathbf{F}_c^1,\mathbf{F}_c^2,\mathbf{F}_c^3,\mathbf{F}_c^4\} Fc={ Fc1,Fc2,Fc3,Fc4},注意这里的每个特征 F c \mathbf{F}_c Fc 和输入到Unet中的文本特征 F e n c = { F e n c

### 可控文生技术研究概述 可控文生(Controllable Text-to-Image Generation)是一种基于文本生成高质量像的技术,其核心在于通过自然语言描述来指导模型生成特定视觉内容。近年来,随着深度学习的发展,尤其是扩散模型(Diffusion Models)、变分自编码器(VAEs),以及生成对抗网络(GANs)的应用,该领域取得了显著进展。 #### 技术背景与发展现状 在当前的研究中,神经架构设计对于实现高精度的跨模态匹配至关重要。例如,在检测离题书面回应的任务中,一种方法是利用LSTM对文本进行建模并将其用于调节像表示[^2]。这种方法可以扩展到更复杂的场景,比如控制生成像的具体属性(颜色、风格、布局等)。此外,《Detecting Concealed Information in Text and Speech》一文中提到的信息隐藏检测技术也为理解文本与像之间的语义关联提供了重要启发[^1]。 #### NeurIPS 2024 的潜在主题方向 NeurIPS 是机器学习和人工智能领域的顶级会议之一,预计将在以下几个方面展开深入探讨: 1. **多模态融合** 探索如何更好地将文本特征映射至像空间,并保持两者之间的一致性和连贯性。这可能涉及改进现有的对比学习框架或开发新的损失函数形式。 2. **细粒度控制机制** 提供更加精细的操作选项给用户定义目标对象的位置、大小比例以及其他外观特性。此类工作通常依赖于条件分布估计理论的支持。 3. **伦理考量与社会影响评估** 随着AI创作能力不断增强,有必要审视这些工具可能带来的正面价值同时也关注负面后果,如版权争议或者虚假信息传播等问题。 以下是 Python 实现的一个简单例子展示如何加载预训练好的 Stable Diffusion 模型来进行基础的文字转片操作: ```python from diffusers import DiffusionPipeline pipeline = DiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5") prompt = "a photograph of an astronaut riding a horse" image = pipeline(prompt).images[0] image.save("./astronaut_rides_horse.png") ``` 此脚本调用了 Hugging Face 上托管的一个版本较旧但仍具代表性的稳定扩散管道实例化过程,并指定了一条提示串作为输入参数传递进去完成渲染任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值