一、HyperLoRA介绍
啊哈,又有很棒的新技术了,字节发布了最新的肖像技术,这个是基于SDXL的,看官方介绍好像比之前InstantID更强,超强零样本真人ID一致性,我们来一起测试看看吧。
个性化肖像生成:背景与挑战
个性化肖像合成在社交娱乐等领域具有重要意义。
-
传统方法:基于LoRA和DreamBooth等方法,需针对个人样本进行微调,耗时耗资源。
-
Adapter方法:如IP-Adapter,虽能零样本推理,但生成图像自然度和真实感不足。
-
核心挑战: 如何在保证身份保真度的同时,实现高编辑性和快速推理速度。
HyperLoRA:参数高效自适应生成方法
核心思想: 采用自适应插件网络生成LoRA权重,融合LoRA的高性能和Adapter的零样本能力。
关键优势:
- F:高保真度 (Fidelity)
- E:高可编辑性 (Editability)
- S:快速推理速度 (Speed)
创新点: 低维线性LoRA空间,参数分解与多阶段训练策略。
我们将 HyperLoRA 明确分解为 Hyper ID-LoRA 和 Hyper Base-LoRA。**前者旨在学习身份信息,而后者则旨在拟合其他信息,例如背景和服装。**这种设计有助于防止无关特征泄露到 ID-LoRA。在训练过程中,我们固定预训练的 SDXL 基础模型和编码器的权重,仅允许 HyperLoRA 模块通过反向传播进行更新。在推理阶段,集成到 SDXL 中的 Hyper ID-LoRA 会生成个性化图像,而 Hyper Base-LoRA 是可选的。
来看看官方给出的技术对比效果图
看着还不错,我来测试看看效果吧。
总结 (Summary):
- HyperLoRA:首个基于LoRA的零样本个性化肖像生成方法。
- 优势:高保真度、高可编辑性、快速推理速度。
- 创新点:低维线性LoRA空间、参数分解、多阶段训练策略。
结论: HyperLoRA为个性化肖像生成领域提供了一种新的有效方案,具有广阔的应用前景。
二、相关安装
插件安装
插件地址:https://github.com/bytedance/ComfyUI-HyperLoRA
模型安装
模型目录结构如下,网盘都给大家提供了
一共发布了两个版本的 HyperLoRA。
- sdxl_hyper_id_lora_v1_fidelity 提供更高的保真度
- sdxl_hyper_id_lora_v1_edit 提供更佳的可编辑性
需要注意的是,我们使用 FP16 精度训练了一些额外的步骤,并将 0.25 倍的 Base LoRA 提炼到 ID LoRA 中,这进一步缩减了模型大小和 GPU 内存占用。
三、测评体验
工作流已上传以下平台:
RH在线运行:https://www.runninghub.cn/post/1916141850053246977?inviteCode=kol01-rh024
官方给出几种尝试的方案
- 文生图
- 文生图+面部细化
- 文生图+Controlnet控制
- 文生图+InstantID
官方推荐使用 RealVisXL v4.0 模型,效果最佳
LoRA 权重通常在0.75 到 0.85 左右。如果提示很长,可以适当增加权重(触发词的权重也一样)。如果需要更好的可编辑性,可以适当降低权重。
我直接一个工作流把上面功能都整合进来了
并且给出了一组对比图,分别是HyperLORA出图、InstantID出图、HyperLORA+InstantID出图
这样方便做比较,还接入了评分系统,可以更加直观的看到对比。
先说结论:
- 单独使用HyperLORA并不比InstantID强
- HyperLORA+InstantID组合出图效果最好
工作流截图:
HyperLoRA核心节点如下图所示
现在先来看一组对比
fcsks fxhks fhyks, a young woman, wearing wedding dress, at church
下面是三种对比
可以很明显的看到,有涉及InstantID的,会默认参考原图的构图,所以泛化性变小了。
所以我这里做了一个操作,给instantID这边加了一个图像姿势参考
这样,就会是半身照了,下面是对比图,可以看到,HyperLORA+InstantID出图的DIST是最低的,也就最像。
下面这组对比是加了面部细化和不加面部细化的对比,可以看出来,如果是中景,面部比较小的情况,还是加上面部细化效果会好很多。
加了面部细化后,DIST值从0.451降低到0.383,说明更像了
我们换一组图看看
fcsks fxhks fhyks, Real photography, a girl, 4K, RAW photo, Korean portrait photography, korean style, close-up, 1 beautiful girl, exquisite makeup, delicate skin, long hair, beige off-shoulder sweater, depressed mood, ambient light, film lighting, polaroid effect, dark tone, snow scene, snowflakes Falling, outdoor shooting, background blur, Sunlight, (extreme light:1.2), Korean drama heroine's atmosphere, real photos, best picture quality, high details, (Nikon AF-S 105mm f/1.4E ED)
还是组合使用的最像,DIST分数最低。
下面请老演员出来
fcsks fxhks fhyks, a man, white shirt, gray background
这一组效果都还不错
最后说一个翻车案例,我发现啊,单独使用HyperLORA很吃提示词,有时候完全不像,搞不懂为什么,测试了好几个提示词,都有这种情况发生。
Intimate close-up of a woman resting on a cloud of cotton, the cotton appearing plush and inviting, soft shadows creating depth, muted color palette, ethereal lighting, calm ambiance.
大家看,上图中左侧第二张图就是单独使用HyperLORA出的图,完全不像,所以这个模型多多少少有点小问题,有时候很像,有时候不像,不懂是不是我用法不对。
不过我还是推荐结合InstantID使用,这种效果是最好的。
这句话也是我这次测评总结的最重要的结论哈哈。
四、在线使用
云端镜像
大家如果没有本地 ComfyUI 环境,或者本地显卡配置低于 16G 的,可以使用嘟嘟部署的仙宫云镜像,可直接加载使用。后续分享的工作流都会更像到镜像中,一周更新一次,方便大学学习。
目前整合了2个镜像,一个是Flux绘图用的,另外一个是针对视频模型的,之所以分开是一些模型兼容问题,分开比较好处理。
镜像名称:嘟嘟AI绘画趣味学
云平台镜像地址:
https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY
https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY
新用户通过邀请码注册,总共可获得 8 元奖励,体验 4 个小时的 4090 作图时长。
RH平台
推荐不想本地自己折腾的同学一个可在线使用Runninghub平台可在线体验AI应用和工作流(注册即送1000积分可用)。
https://www.runninghub.cn/?inviteCode=kol01-rh024
主页更多精彩工作流可在线体验: https://www.runninghub.cn/user-center/1865434314359058434?inviteCode=kol01-rh024
五、总结
以上就是字节的这款最新人像一致性HyperLoRA方案的介绍了,买家秀和卖家秀是两码事,希望我的测试对大家有所帮助。
AI时代,值得我们去投入时间研究。
技术的迭代是飞快的,要关注最新的消息才不会掉队。
嘟嘟每天分享最新的ComfyUI技术前沿。
本篇中的工作流和模型网盘链接:https://pan.quark.cn/s/e66fa32ffad1
我是嘟嘟,专注于 AI 绘画以及 AI 工具分享,欢迎来一起交流。
如果觉得文章有帮助,请帮忙点赞收藏关注一下呦~