[Comfyui] 从图像到视频!我的Ipadapter-Plus 学习过程都在这里【附工作流】

IPAdapter 是用于图像到图像调节的非常强大的模型。主题甚至参考图像的风格都可以很容易地转移,可以将其视为一张图像的 lora。

安装

使用 Comfyuimanager 或者使用命令行

进入 custom_nodes 目录

git clone https://github.com/cubiq/ComfyUI_IPAdapter_plus.git

这份完整版的comfyui资料包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述
重启 comfyui

Ipadaper 基本原理

IP-Adapter 提供了一种独特的方法来控制图像和视频的生成。它的工作方式与 ControlNet 不同 - 它不是试图直接引导图像,而是通过**将提供的图像转换为嵌入(embedds)(本质上是一个提示)**并使用它来指导图像的生成。它生成的嵌入在英语中是无法理解的,它可以以文本提示 struggle 的方式详细说明(即,很难描述衬衫上衣领的确切类型或部分张开的嘴的形状)。由于它无需动手,因此可以在保持连贯性的同时进行更重的风格传输。

它依赖于剪辑视觉(clip_vision )模型 - 该模型查看源图像并开始编码 - 这些是其他计算机视觉任务中使用的成熟模型。然后 IPAdapter 模型使用此信息并创建令牌(即提示(prompts))并应用它们。重要的是要知道 Clip Vision 仅使用 512x512 像素 - 因此,如果太小,精细细节仍然会丢失。

简单来说就是使用 clip_vision 模型 将图片转成一种特定的 prompt 结合我们输入的 prompt 共同作用生成

相关模型

clip_vision模型

存放地址 ``

/ComfyUI/models/clip_vision
  • CLIP-ViT-H-14-laion2B-s32B-b79K.safetensor
  • CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors
  • clip-vit-large-patch14-336.bin, 仅适用于 Kolors 模型

Ipadapter 模型

存放地址 ``

/ComfyUI/models/ipadapter
  • ip-adapter_sd15.safetensors,基础模型,平均强度
  • ip-adapter_sd15_light_v11.bin,强度较弱
  • ip-adapter-plus_sd15.safetensors,Plus 模型,非常强大,也最常用
  • ip-adapter-plus-face_sd15.safetensors、人脸模型、肖像
  • ip-adapter-full-face_sd15.safetensors,更强的面部模型,不一定更好
  • ip-adapter_sd15_vit-G.safetensors,基本模型,需要 bigG clip 视觉编码器,即CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors
  • ip-adapter_sdxl_vit-h.safetensors,SDXL 模型
  • ip-adapter-plus_sdxl_vit-h.safetensors,SDXL plus 模型
  • ip-adapter-plus-face_sdxl_vit-h.safetensors,SDXL 人脸模型
  • ip-adapter_sdxl.safetensors,vit-G SDXL 模型,需要 bigG clip 视觉编码器, 即 CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors
  • ip-adapter_sd15_light.safetensors,v1.0 Light 影响模型,已废弃的

面部模型

  • ip-adapter-faceid_sd15.bin 基本 FaceID 模型
  • ip-adapter-faceid-plusv2_sd15.bin、FaceID 和 v2
  • ip-adapter-faceid-portrait-v11_sd15.bin、肖像的文本提示样式迁移
  • ip-adapter-faceid_sdxl.bin、SDXL 基础 FaceID
  • ip-adapter-faceid-plusv2_sdxl.bin,SDXL plus v2
  • ip-adapter-faceid-portrait_sdxl.bin、SDXL 文本提示样式迁移
  • ip-adapter-faceid-portrait_sdxl_unnorm.bin,非常强的风格传输仅限 SDXL
  • ip-adapter-faceid-plus_sd15.bin,FaceID plus v1,已弃用的
  • ip-adapter-faceid-portrait_sd15.bin,portrait 模型的 v1,已弃用的

面部模型结合使用的 lora

存放地址 ``

/ComfyUI/models/loras 
  • ip-adapter-faceid_sd15_lora.safetensors
  • ip-adapter-faceid-plusv2_sd15_lora.safetensors
  • ip-adapter-faceid_sdxl_lora.safetensors, SDXL FaceID LoRA
  • ip-adapter-faceid-plusv2_sdxl_lora.safetensors, SDXL plus v2 LoRA
  • ip-adapter-faceid-plus_sd15_lora.safetensors,已弃用的 FaceID plus v1 模型的 LoRA

使用案例拆解

风格参考

img

在 model 的路径上加入 Ipadapter 应用;即下图部分 ``

Ipadapter model + clip_version + image => ipadapter 

应用进行Ipadapter 应用

img

主要节点

应用IPAdapter(高级)

img

参数 :

  • model : 正常工作流加载的模型;即未使用ipadapter时加载的模型

  • ipadapter : 使用的 ipadapter 模型加载

  • 正面图像:需要参考的图像

  • 负面图像:需要参考的负面图像;可用于噪声注入,一般为噪点图,通常会带来更好的结果

  • 关注层遮罩:即IPA作用的遮罩区域,如果不传就是作用整个图像生成

  • clip 视觉:加载使用的视觉模型

  • 权重:ipadapter 的强度,0-1 取值,数值越高,ipa权重越强,参考图片的强度越大

  • 权重类型:

    • liner: 线性强度,从图像生成流程的初始到结束阶段,始终以恒定强度施加参考图的影响;需保持参考图风格或构图稳定性的任务(如产品设计模板化输出)
    • ease in (渐强): 在生成初期以较低强度介入,随着生成进度逐步增强参考图的影响 ; 避免初始阶段参考图特征过于突兀,适合需要自然过渡的场景(如背景融合)
    • ease out (渐弱): 生成初期以高强度介入,后期逐步减弱参考图影响; 适用于希望保留参考图核心元素但需增加创意变化的场景(如艺术风格化)
    • Ease In-Out(渐强-渐弱): 生成初期和末期以较低强度介入,中期达到影响峰值; 平衡生成过程首尾阶段的自由度与中期精准控制,适合复杂构图生成。
    • Weak Input (弱化输入阶段) : 降低生成流程早期对参考图的依赖,避免初始特征过度固化; 需保留参考图色彩但重构构图的广告海报设计。
    • Weak Output(弱化输出阶段): 减弱生成末期参考图的影响,提升最终细节的原创性; 角色设计需保留基础特征但增加服饰/背景创新
    • Weak Middle (弱化中间):在生成中期最小化参考图影响,强调首尾阶段控制
    • Strong Middle(强化中间):在生成中期最大化参考图影响,聚焦核心元素强化
    • Style Transfer(风格迁移):将参考图的艺术风格迁移至生成图像;
    • Composition(构图迁移):重点迁移参考图的元素布局与空间关系,弱化具体细节
    • strong Style Transfer(强风格迁移):Style Transfer的加强版
    • Style and Composition (风格和构图):风格和构图融合迁移
    • Style Transfer Precise(精准风格迁移):在风格迁移基础上增强细节还原度,适用于高精度商业设计;对原始图像的内容要求不高,主要参考其风格
    • Composition Precise (精确构图迁移):对风格迁移要求不高,主要参考构图

以下是在使用 PLUS模型的情况下 各个权重类型对应的图片生成,大家可以自己参考下

img

img

img

img

**
**

CLIP视觉图像处理

img

**
**

该节点主要的作用为预处理输入的图片;因为Ipadapter 需要输入的图片为正方形的,使用该节点可以对图片进行裁剪处理,同时如果图片效果不太好比如场景比较复杂或者人物占据的位置很小,也可以使用该节点进行处理,使人物的占比更大,ipa更好进行识别;

裁剪位置:

img

top:裁剪参考图上面部分内容(一般用于竖图)

bottom:裁剪参考图下面部分内容(一般用于竖图)

left:裁剪参考图左边部分内容(一般用于横图)

right:裁剪参考图右边部分内容(一般用于横图,如上图示例)

center:从图片中心位置裁剪周围多余部分

pad:不裁剪,直接通过黑色补齐图像变成正方形,可以参考到整张图像的全部信息

效果如下

img

**
**

加载 ipadapter 模型

img

通常风格参考一般使用如下模型,其余的带 face的都和人物面部使用有关

img

Clip_version 加载

一般使用第一个

img

第二个一般配合 vit-G的ipadapter模型使用

img

其他方式 :

img

**
**

其中红色框框的两个分别加载可以使用绿色框框的统一加载代替

其组合方式为:

Ipadapter加载器Ipadapter模型加载器clip视觉加载器
PLUS (high strength)ip-adapter-plus_sd15.safetensorsCLIP-ViT-H-14-laion2B-s32B-b79K.safetensors
LIGHT SD1.5 only (low strength)ip-adapter_sd15_light_v11.binCLIP-ViT-H-14-laion2B-s32B-b79K.safetensors
STANDARD (medium strength)ip-adapter_sd15.safetensorsCLIP-ViT-H-14-laion2B-s32B-b79K.safetensors
VIT-G(medium strength)ip-adapter_sd15_vit-G.safetensorsCLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors
PLUS FACE (portraits)ip-adapter-plus-face_sd15.safetensorsCLIP-ViT-H-14-laion2B-s32B-b79K.safetensors
FULL FACE SD1.5 only (portraits stronger)ip-adapter-full-face_sd15.safetensorsCLIP-ViT-H-14-laion2B-s32B-b79K.safetensors

**
**

Ipadapter加载器效果测试

*脸部模型效果*

**
**

FULL FACE SD1.5 only (portraits stronger)

img

PLUS FACE (portraits)

img

其他模型效果

PLUS (high strength)

img

VIT-G(medium strength)

img

STANDARD (medium strength)

img

LIGHT SD1.5 only (low strength)

img

多风格融合

img

输入两张图片,一张水墨风格,一张针织童话风格,进行图片批次融合 输出图像如下:

img

区域风格控制

方式一:使用蒙版控制区域图片生成

img

上面的提示词是 “左边一个中国古代武士,右边一个哥斯拉怪兽”;

使用蒙版控制ipadater生效区域实现

这种方式可以控制对应区域的ipa风格,但是没法控制各个区域的提示词;

所以导致生成的区域没有严格遵守提示词要求;

要想提示词也控制可以使用下面这种方式

img

方式二:IPAdapter区域条件

img

img

提示词:

总体提示词 : An ancient Chinese male warrior on left , a Godzilla monster on right 提示词1:a Godzilla monster on right 提示词2:An ancient Chinese male warrior on left 

生成结果如下

img

**
**

批次节点使用

我们在上面进行多风格融合的适合使用了多张图像输入,IPA的操作是将两张图的风格进行了融合,如果我们需要分别参考输入图片进行批次风格转绘应该怎么做呢,那就是使用 **应用IPAdapter(批次)**节点

img

img

这样我们就得到了输入图片对应风格的多张照片了

img

img

IPAdapter编码 + IPAdapter合并嵌入组

这里是 Ipadapter encoder + 嵌入组 embedds 的使用;

Ipadapter encoder 是根据 CLIP视觉加载器 将输入的图片进行识别并编码成 embedds 输入模型当作生图的条件

img

下图使用了两个 IPAdapter编码 所以使用到了 embedds 合并节点将两个 embedds 进行组合

img

生成的图片则是基于两组embedds融合处理生成的,包含了两组图片的特征

img

因为使用 CLIP视觉加载器 需要加载模型进行图像识别,如果你觉得本次组合图片效果很好,可以重复使用,我们可以将其保存成embedds,下次使用时直接加载embedds,就不需要再去识别图片,可以节省我们的显存使用

img

可以在目录

\ComfyUI\output 

找到我们保存的embedds,以**.ipadpt** 结尾

img

我们将其复制到

 \ComfyUI\input

目录

img

读取embedds

img

节点加载,如果我无法找到需要刷新页面即可

可以看到生成的结果是一样的

img

视频生成风格控制

在使用animatediff生成视频时,使用Ipadapter可以控制视频生成的稳定性和风格;当然生成视频的质量和原图的相似度和模型是有关系的;

img

生成的视频: 按顺序分别为参考图,和生成的视频

img

img

img

img

Ipadapter + Controlnet

使用 Controlnet 进行形状控制,Ipadapter 进行风格转绘, 下面的例子是使用 canny 进行构图固定+Ipadapter进行风格转移

img

从上到下分别为 Ipadapter参考图,controlnet 控制图,生成的结果图

示例一:

img

img

img

示例二:

img

img

img

ipadapter-风格合成SDXL

这个是基于SDXL模型的选项,如果使用统一加载器即 Ipadapter 加载器,会自动帮我们加载 SDXL 相关的模型,否则的话需要我们自己修改

img

工作流

img

img

这个节点的作用相当于是一张图像控制风格,一张图像控制图像的大致构图

从上到下分别为风格图像,构图图像,结果图

img

img

img

负面图像

在负面图像加入噪波;我们知道,负面图像的作用是我们不想要的图片信息;如果我们在负面图像加入噪波信息,就意味着我们不想要噪波,那么我们生成的图的质量会更加好

加入噪波图

img

生成的图;我们可以看到明显比上面生成的图质量要好,要更加清晰、(对应IPAdapter区域条件工作流)

img

【AI绘画视频合集】

img

这份完整版的comfyui资料我已经打包好,点击下方卡片即可免费领取!
【AI绘画视频合集】

img

这份完整版的stable diffusion资料我已经打包好,点击下方卡片即可免费领取!

这份完整版的comfyui资料包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

总结

以上基本覆盖了Ipadapter-plus所有节点的工作流和使用案例了,如果您觉得看完后有收获,可以关注作者,后续会分享更多基于Comfyui的使用和学习过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值