IP-Adapter: Text Compatible Image Prompt Adapter forText-to-Image Diffusion Models——【论文笔记】

本文介绍了一种轻量级的IP-Adapter,通过解耦的交叉注意机制增强文本到图像扩散模型对图像提示的处理能力。IP-Adapter仅需少量参数,性能超越全量微调,适用于多种模型微调和多模态生成,节省计算资源。
摘要由CSDN通过智能技术生成

本文是腾讯实验室挂在ArXiv上的文章

论文地址:[2308.06721] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models (arxiv.org)

GitHub地址:

tencent-ailab/IP-Adapter: The image prompt adapter is designed to enable a pretrained text-to-image diffusion model to generate images with image prompt. (github.com) 

一、Introduction

        近年来,大型文本到图像扩散模型展现了强大的生成能力,创造出高保真图像,但生成所需的文本提示往往复杂且工程量大。为了解决这一问题,文本提示的替代方法之一是使用图像提示,因为图像胜过千言万语。现有的直接微调预训练模型的方法虽然有效,但需要大量计算资源,且不兼容其他基础模型、文本提示和结构控制。本文提出了IP适配器,一个有效且轻量级的适配器,用于实现文本到图像扩散模型的图像提示能力。IP适配器的关键设计是解耦的交叉注意机制,可分离文本特征和图像特征的交叉注意层。尽管方法简单,IP适配器仅使用22M参数就能达到甚至超越完全微调的图像提示模型的性能水平。当冻结预训练的扩散模型时,提出的IP适配器不仅可应用于其他自定义模型的微调,还可与现有可控工具结合实现可控生成。通过解耦的交叉注意策略,图像提示可以很好地与文本提示结合,实现多模态图像生成。

二、Related Work

2.1 Text-to-Image Diffusion Models      

        近年来,大型的文本到图像生成模型主要分为两类:自回归模型和扩散模型。早期的自回归模型包括DALLE、CogView和Make-A-Scene等,通过将图像转换为标记,并以文本标记为条件,使用自回归Transformer来预测图像标记生成图像。然而,自回归模型通常需要大量参数和计算资源才能生成高质量图像。近期,扩散模型成为文本到图像生成的新潮流,如GLIDE、DALL-E2、Imagen、Re-Imagen、SD、eDiff-I、Versatile Diffusion、Composer和RAPHAEL等模型应运而生。这些扩散模型采用不同的方法来实现文本到图像的生成,支持图像提示和文本提示的多模态生成。一些模型如SD图像变化模型和稳定的unCLIP利用图像提示进行微调,以生成图像,但通常需要大量训练成本,且可能不兼容某些现有工具。总的来说,文本到图像生成领域正在不断发展,各种模型不断涌现,为图像生成带来了更多可能性和选择。

2.2 Adapters for Large Models

        近期,由于微调大型预训练模型效率低下,适配器成为一种替代方法,通过添加可训练的参数来冻结原始模型,以提高效率。在自然语言处理领域,适配器一直被广泛应用。最近,适配器也开始在大型语言模型的视觉语言理解和文本到图像模型的生成方面发挥作用。ControlNet首次证明了适配器可用于训练预训练的文本到图像扩散模型,学习特定任务的输入条件,例如精细的边缘。T2 I-adapter通过简单轻量级的适配器实现了对生成图像颜色和结构的细粒度控制。为了降低微调成本,Uni-ControlNet提出了多尺度条件注入策略,学习各种本地控制的适配器。除了结构控制的适配器外,还有用于条件生成的适配器,例如ControlNet Shuffle 1和ControlNet Reference-only 1,用于重新组合图像和实现图像变体。最新版本的T2 I-adapter引入了样式适配器,通过将图像特征附加到文本特征来控制生成图像的样式。Uni-ControlNet的全局控制适配器将图像嵌入映射到条件嵌入中,用于指导生成参考图像的样式和内容。SeeCoder使用语义上下文编码器代替原始文本编码器来生成图像变体。虽然早期适配器较为轻量级,但性能通常不如微调模型,而且距离从头开始训练模型还有一定差距。本研究提出了一个解耦的交叉注意机制,实现更有效的图像提示适配器,简单小巧的同时性能优越,甚至可与微调模型媲美。

三、Method

Method部分我主要根据框架图来进行讲解:

        实际上这个IP-Adapter就是在原有的文本生成图像模型的基础在,在U-Net网络中的每个注意力块中添加了一个新的交叉注意力层,然后利用一个预训练的图像编码器对输入的图像提示提取图像特征,然后输入到新的交叉注意力层当中,然后利用论文所提出的解耦交叉注意力机制来实现两个交叉注意力输出的结合。

具体原理如下:

文本特征输入到交叉注意力层所得输出:

图像特征输入到交叉注意力层所得输出:

这里文本特征和图像特征在计算交叉注意力时,所用得查询矩阵Q是一致的,因此实际上只需要训练新的交叉注意力层的KV即可。

最后的输出:

在进行图像推理时,还可以调整权重因子来输出更好的图像:

 

 四、Experiments

        这里将论文所提出的方法与三种模型进行比较:从头开始训练的模型,微调的模型,适配器模型。相比而言,论文所提出的模型比起其他适配器要好很多,与其他种类的模型比起来也大差不差 。     

CLIP-I:这指的是生成的图像的嵌入表示与图像提示的嵌入表示之间的相似性。在CLIP中,图像和文本都被转换成嵌入向量,通过比较这两个嵌入向量的相似性,可以评估生成的图像与图像提示之间的关联程度。

CLIP-T:这是指生成的图像与图像提示的标题之间的CLIPScore。CLIPScore是一个用于衡量文本与图像之间相关性的指标,它可以帮助评估生成的图像是否与给定的图片描述相匹配。

 使用多提示图像生成的效果如下:

 消融实验:

        这部分是一个消融实验,它做了一个简单的适配器,这个适配器并没有使用论文所提出的解耦交叉注意力机制,而是直接将文本特征和图像特征进行顺序相连。图中表现了生成图像的差异,很明显,IP-Adapter的效果要好出很多。

  • 19
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是浮夸

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值