（Stable Diffusion）超好用“垫图”神器：IP-Adapter！确定不来领一个？

AI绘画月月

于 2024-07-18 10:32:11 发布

阅读量484

点赞数 11

文章标签： stable diffusion 人工智能 AIGC

本文链接：https://blog.csdn.net/2401_84760719/article/details/140515589

版权

前言

Lora无需训练，仅需一张图像即可实现风格转换。它不仅支持从多张图像中提取多种特征，还具备强大的扩展功能，能够集成动态提示矩阵、ControlNet等技术。这就是IP-Adapter的独特之处，它代表了一种创新的“垫图”技术，使您的AI生成内容（AIGC）之旅变得更加高效而轻松。

“垫图”神器展示

大家对“垫图”这个词儿应该不陌生吧？以前，当我们想要创造一幅心目中的画面，却又难以用prompt精确描述时，最直接的方法就是找一张类似的图片，然后启动img2img流程，一气呵成！

但是，img2img虽然简单，也有它的小短板。比如，它在还原prompt时可能不够精准，生成的画面变化也不够丰富。特别是当我们想要加入controlnet进行更复杂的控制时，选图、选模型、配controlnet就像是高级定制，稍有不慎，生成的效果可能让人当场想要掀桌子…

不过，现在好消息来了！我们迎来了新一代的“垫图”利器——IP-Adapter。在我细细道来它的奥妙之前，不妨先来直观地体验一下它的魔力吧！

效果堪称惊艳，那么IP-Adapter是否就是我们一直在寻找的终极解决方案呢？我们来探究一下：它的泛化能力有多强？兼容性是否达到了预期水平？对于prompt的支持又是如何？而当我们考虑将其应用于实际工作场景时，它还有哪些潜在的扩展功能？让我们逐一揭晓。

整理和输出教程属实不易，觉得这篇教程对你有所帮助的话，可以点击👇二维码领取资料😘
在这里插入图片描述

IP-Adapter的核心优势

IP-Adapter和img2img虽然在操作上都是“垫图”，但它们的底层实现可以说是毫无关系。

用个不严谨但好理解的例子，“IP-Adapter”和“img2img”就是两位画师，现在给出prompt要求它俩画一个男人，在不提供参考图的情况下，它们大概都会画成图1的模样，但是当我们加上参考图2的时候，两者的区别就显现了。

img2img相当于直接盖在参考图上开始临摹，虽然知道要画个男人，但会在老虎的基础上去修改，始终会很别扭，中间不免出现老虎和男人混淆的情况，画出一些强行混合不知所谓的图来。因为在这个流程中，参考图更为重要，一切是在它基础上画出来的，结果也更倾向于参考图。

IP-Adapter则不是临摹，而是真正的自己去画，它始终记得prompt知道自己要画个男人，中间更像请来了徐悲鸿这样的艺术大师，将怎么把老虎和人的特点融为一体，讲解得偏僻入里，所以过程中一直在给“男人”加上“老虎”的元素，比如金黄的瞳仁、王字型的抬头纹、虎纹的须发等等。此时，prompt更为重要，因为这才是它的始终目标。

当然这些都是在一定的参数范围内，超过了阈值，那必然是要走极端的，照着参考图去copy了。但即便这样也可以看到img2img只是1:1的复制，而IP-Adapter有更多prompt的影子。

商业“垫图”，拓展案例

一旦我们深入了解了IP-Adapter的奥秘，就会发现它带来的变革远不止于简单的“垫图”技术。咱们先来看看它在我们的工作中是如何大显身手的，然后我会带大家一步一步揭开它的神秘面纱，一探究竟！

化妆品

家装家居

实现这些炫酷效果其实轻而易举，只需施展两个小妙招：一层controlnet用来施展IP-Adapter的魔法，另一层则借助canny的神笔，对我们想要添加的商品进行巧妙绘制和固化。就这么简单，却能创造出令人惊叹的效果！

底层逻辑

回想以前，要营造一个特定的设计风格，我们得对lora进行专门的训练，这背后包括了搜集素材、打标签、训练模型、检验效果等一系列复杂步骤。这通常需要耗费一两天的时间，而且成果的不确定性还挺让人捉摸不透。

但现在，有了IP-Adapter，一切都变得简单快捷。只需一个步骤，几分钟内就能直观地看到结果，节省的时间不可同日而语，我们的工作效率简直提升到了一个新的维度。

想象一下，拥有了这些特征，我们就像是拥有了一个“速成版lora”——而我们需要做的，仅仅是搜寻几张符合我们预期的参考图片而已。更妙的是，IP-Adapter能够同时处理多张参考图，这让我们创造出来的作品不仅多样丰富，还带有一丝随机的魅力。这种能力在传统的img2img流程中是难以实现的，也正是它与众不同的最大魅力所在。

现在，让我们的思维再放飞一点。得益于IP-Adapter对prompt的超强关注力，prompt里的信息能够更直接、更生动地映射到最终的成果上。这就意味着，在继承了图片风格的同时，我们可以通过更换prompt中的关键词，指引出各种不同的创意结果。就像是玩拼图一样，组合不同的prompt关键词，形成一个多变的prompt组合矩阵，从而进一步扩展我们的创作结果，让它们变得更加多姿多彩。

接下来，让我们的创意之旅更进一步。想象一下，加入各种不同的controlnet和批量素材读取功能，这不仅能让我们对生成的结果进行精准的导向控制，还能利用批量读取的能力，带来更多样化的模板选择。就这样，一个“零成本即时lora + controlnet精确操控 + prompt矩阵多样化生成”的自动化流程就神奇地诞生了。这不仅仅是一个工具，这简直是创意和效率的完美结合体！

到这里，关于IP-Adapter背后的原理和应用就整理完了，它有非常多的优点，但也非常需要结合实际的场景来应用，还是那个观念，没有最好的方法，只有适合的方法。

总结

在我们被IP-Adapter的表现效果彻底震撼之后，不妨戴上探险家的帽子，深入探究一下它的底层原理，看看它到底有哪些独特之处。

让我们先来聊聊stable diffusion，这是一种扩散模型。想象一下，它的核心就像是一个降噪处理大师。我们给出的prompt，就好比是一张藏宝图，指引着我们的目标。通过一系列精妙的去噪过程，我们就像是在一步步靠近宝藏，最终揭开神秘的面纱，呈现出我们心中所期待的那幅画面。

想象一下，如果IP-Adapter是一位巧手艺人，它的特长就在于将图片独立出来，作为一种独特的提示特征。这不同于以往那种简单的将图像特征和文本特征混合拼接的方法。IP-Adapter运用了一种带有解耦交叉注意力的适配模块，这就像是在一个繁忙的交通枢纽中，为文本特征和图像特征各自开辟了不同的路径。

在Unet的模块中，IP-Adapter巧妙地增加了一条专门的Cross-Attention通道，专门用来引入图像特征。这就好比是在原本的SD（Stable Diffusion）中，将img和prompt这两个原本混合在一起的向量分开处理，让它们各自独立成形，然后再交给unet层。这样一来，图像中的特征就能被更好地保留下来，实现对图像特征的显性继承和保留。

本质上，IP-Adapter依然遵循着txt2img的流程，其中prompt依旧扮演着关键角色。只不过，在这个过程中，IP-Adapter巧妙地强化了参考图的提示作用，就像是在绘画中加入了一抹更鲜明的色彩。

让我们来做个有趣的对比：在img2img的世界里，参考图就像是一个神秘的魔法师，直接进入unet的核心，用自己的魔力去替换掉那些原始的随机噪音。这就好比是在一个故事的基础上重新编织情节，所有的创作都是在这张参考图的魔法之下诞生的。所以，当你看到那些人物和老虎混杂在一起的奇异现象时，就不难理解了——这正是参考图魔法的结果。

这是一位SD资深大神整理的，100款Stable Diffusion超实用插件，涵盖目前几乎所有的，主流插件需求。

全文超过4000字。

我把它们整理成更适合大家下载安装的【压缩包】，无需梯子，并根据具体的内容，拆解成一二级目录，以方便大家查阅使用。

单单排版就差不多花费1个小时。

希望能让大家在使用Stable Diffusion工具时，可以更好、更快的获得自己想要的答案，以上。

如果感觉有用，帮忙点个支持，谢谢了。

想要原版100款插件整合包的小伙伴，可以来点击下方插件直接免费获取
在这里插入图片描述

100款Stable Diffusion插件：

面部&手部修复插件：After Detailer

在我们出图的时候，最头疼的就是出的图哪有满意，就是手部经常崩坏。只要放到 ControlNet 里面再修复。

现在我们只需要在出图的时候启动 Adetailer 就可以很大程度上修复脸部和手部的崩坏问题

AI换脸插件：sd-webui-roop

换脸插件，只需要提供一张照片，就可以将一张脸替换到另一个人物上，这在娱乐和创作中非常受欢迎。

模型预设管理器：Model Preset Manager

这个插件可以轻松的创建、组织和共享模型预设。有了这个功能，就不再需要记住每个模型的最佳 cfg_scale、实现卡通或现实风格的特定触发词，或者为特定图像类型产生令人印象深刻的结果的设置!

现代主题：Lobe Theme

已经被赞爆的现代化 Web UI 主题。相比传统的 Web UI 体验性大大加强。

提示词自动补齐插件：Tag Complete

使用这个插件可以直接输入中文，调取对应的英文提示词。并且能够根据未写完的英文提示词提供补全选项，在键盘上按↓箭头选择，按 enter 键选中

提示词翻译插件：sd-webui-bilingual-localization

这个插件提供双语翻译功能，使得界面可以支持两种语言，对于双语用户来说是一个很有用的功能。

提示词库：sd-webui-oldsix-prompt

提供提示词功能，可能帮助用户更好地指导图像生成的方向。

上千个提示词，无需英文基础快速输入提示词，该词库还在不断更新。

以后再也不担心英文写出不卡住思路了！

由于篇幅原因，有需要完整版Stable Diffusion插件库的小伙伴，点击下方插件即可免费领取