大家好,
今天来分享下字节最新出的零样本真人ID一致性解决方案,这个是SDXL的方案,听说很厉害,我们今天来测评一下。
一、HyperLoRA介绍
啊哈,又有很棒的新技术了,字节发布了最新的肖像技术,这个是基于SDXL的,看官方介绍好像比之前InstantID更强,超强零样本真人ID一致性,我们来一起测试看看吧。
个性化肖像生成:背景与挑战
个性化肖像合成在社交娱乐等领域具有重要意义。
- 传统方法:基于LoRA和DreamBooth等方法,需针对个人样本进行微调,耗时耗资源。
- Adapter方法:如IP-Adapter,虽能零样本推理,但生成图像自然度和真实感不足。
- 核心挑战: 如何在保证身份保真度的同时,实现高编辑性和快速推理速度。
HyperLoRA:参数高效自适应生成方法
核心思想: 采用自适应插件网络生成LoRA权重,融合LoRA的高性能和Adapter的零样本能力。
关键优势:
- F:高保真度 (Fidelity)
- E:高可编辑性 (Editability)
- S:快速推理速度 (Speed)
创新点: 低维线性LoRA空间,参数分解与多阶段训练策略。
我们将 HyperLoRA 明确分解为 Hyper ID-LoRA 和 Hyper Base-LoRA。**前者旨在学习身份信息,而后者则旨在拟合其他信息,例如背景和服装。**这种设计有助于防止无关特征泄露到 ID-LoRA。在训练过程中,我们固定预训练的 SDXL 基础模型和编码器的权重,仅允许 HyperLoRA 模块通过反向传播进行更新。在推理阶段,集成到 SDXL 中的 Hyper ID-LoRA 会生成个性化图像,而 Hyper Base-LoRA 是可选的。
来看看官方给出的技术对比效果图
看着还不错,我来测试看看效果吧。
总结 (Summary):
- HyperLoRA:首个基于LoRA的零样本个性化肖像生成方法。
- 优势:高保真度、高可编辑性、快速推理速度。
- 创新点:低维线性LoRA空间、参数分解、多阶段训练策略。
结论: HyperLoRA为个性化肖像生成领域提供了一种新的有效方案,具有广阔的应用前景。
二、相关安装
插件安装
插件地址:https://github.com/bytedance/ComfyUI-HyperLoRA
模型安装
模型目录结构如下,网盘都给大家提供了
一共发布了两个版本的 HyperLoRA。
- sdxl_hyper_id_lora_v1_fidelity 提供更高的保真度
- sdxl_hyper_id_lora_v1_edit 提供更佳的可编辑性
需要注意的是,我们使用 FP16 精度训练了一些额外的步骤,并将 0.25 倍的 Base LoRA 提炼到 ID LoRA 中,这进一步缩减了模型大小和 GPU 内存占用。
三、测评体验
工作流已上传以下平台:
RH在线运行:https://www.runninghub.cn/post/1916141850053246977?inviteCode=kol01-rh024
官方给出几种尝试的方案
- 文生图
- 文生图+面部细化
- 文生图+Controlnet控制
- 文生图+InstantID
官方推荐使用 RealVisXL v4.0 模型,效果最佳
LoRA 权重通常在0.75 到 0.85 左右。如果提示很长,可以适当增加权重(触发词的权重也一样)。如果需要更好的可编辑性,可以适当降低权重。
我直接一个工作流把上面功能都整合进来了
并且给出了一组对比图,分别是HyperLORA出图、InstantID出图、HyperLORA+InstantID出图
这样方便做比较,还接入了评分系统,可以更加直观的看到对比。
先说结论:
- 单独使用HyperLORA并不比InstantID强
- HyperLORA+InstantID组合出图效果最好
工作流截图:
HyperLoRA核心节点如下图所示
现在先来看一组对比
fcsks fxhks fhyks, a young woman, wearing wedding dress, at church
下面是三种对比
可以很明显的看到,有涉及InstantID的,会默认参考原图的构图,所以泛化性变小了。
所以我这里做了一个操作,给instantID这边加了一个图像姿势参考
这样,就会是半身照了,下面是对比图,可以看到,HyperLORA+InstantID出图的DIST是最低的,也就最像。
下面这组对比是加了面部细化和不加面部细化的对比,可以看出来,如果是中景,面部比较小的情况,还是加上面部细化效果会好很多。
加了面部细化后,DIST值从0.451降低到0.383,说明更像了
我们换一组图看看
fcsks fxhks fhyks, Real photography, a girl, 4K, RAW photo, Korean portrait photography, korean style, close-up, 1 beautiful girl, exquisite makeup, delicate skin, long hair, beige off-shoulder sweater, depressed mood, ambient light, film lighting, polaroid effect, dark tone, snow scene, snowflakes Falling, outdoor shooting, background blur, Sunlight, (extreme light:1.2), Korean drama heroine's atmosphere, real photos, best picture quality, high details, (Nikon AF-S 105mm f/1.4E ED)
还是组合使用的最像,DIST分数最低。
下面请老演员出来
fcsks fxhks fhyks, a man, white shirt, gray background
这一组效果都还不错
最后说一个翻车案例,我发现啊,单独使用HyperLORA很吃提示词,有时候完全不像,搞不懂为什么,测试了好几个提示词,都有这种情况发生。
Intimate close-up of a woman resting on a cloud of cotton, the cotton appearing plush and inviting, soft shadows creating depth, muted color palette, ethereal lighting, calm ambiance.
大家看,上图中左侧第二张图就是单独使用HyperLORA出的图,完全不像,所以这个模型多多少少有点小问题,有时候很像,有时候不像,不懂是不是我用法不对。
不过我还是推荐结合InstantID使用,这种效果是最好的。
这句话也是我这次测评总结的最重要的结论哈哈。
为了帮助大家更好地掌握 ComfyUI,我花了几个月的时间,撰写并录制了一套ComfyUI的基础教程,共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。
由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取
一、ComfyUI配置指南
- 报错指南
- 环境配置
- 脚本更新
- 后记
- …
二、ComfyUI基础入门
- 软件安装篇
- 插件安装篇
- …
三、 ComfyUI工作流节点/底层逻辑详解
- ComfyUI 基础概念理解
- Stable diffusion 工作原理
- 工作流底层逻辑
- 必备插件补全
- …
四、ComfyUI节点技巧进阶/多模型串联
- 节点进阶详解
- 提词技巧精通
- 多模型节点串联
- …
五、ComfyUI遮罩修改重绘/Inpenting模块详解
- 图像分辨率
- 姿势
- …
六、ComfyUI超实用SDXL工作流手把手搭建
- Refined模型
- SDXL风格化提示词
- SDXL工作流搭建
- …
由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取