【ai绘画新王登基，一口气了解FLUX.1：AI生图的“新王”，凭什么震惊世界？】4款Flux模型对比: PixelWave, Shuttle3Diffusion 等

AI极客菌

已于 2024-12-31 11:51:36 修改

阅读量2.1k

点赞数 18

文章标签： AI作画人工智能 3d stable diffusion 学习 comfyUI flux

于 2024-11-27 15:27:49 首次发布

本文链接：https://blog.csdn.net/2401_85688943/article/details/144085926

版权

Flux模型因其高质量的结果和多样的应用场景而在AI社区引发了极大兴趣。然而，众多选择使人难以抉择——从 黑森林实验室 的官方Flux模型（Pro、Dev、Schnell）到众多微调版本，究竟该从哪开始？哪个模型才是最佳选择？

本文旨在阐明官方 Flux模型 与 基于Flux的微调模型 之间的区别，同时全面比较4款流行的基于Flux的微调模型：Shuttle 3 Diffusion、fluxRealistic、PixelWave 和 StoiqoNewreality。

本文并非简单罗列其功能特点，而是基于4个关键性能维度进行深入测试：

皮肤纹理和面部细节
画手的准确度
光效与美学效果
LoRA兼容性

在这里插入图片描述

通过深入对比，我们可以更好地了解每个模型的优劣势，从而为自己选择最适合的工具。

视频教程：

https://www.bilibili.com/video/BV18iSTYKEdG/

首先，让我们从最基础的部分开始，了解由黑森林实验室开发的原始 Flux 模型，以及它们如何演变为这些微调模型。

# 什么是Flux模型？

Flux模型由 黑森林实验室 开发，是一系列AI绘画模型，可以生成高质量的图片。它们分为3个官方版本：Pro、Dev 和 Schnell，每种版本在质量、灵活性和授权上各有不同。

Flux模型的三个版本

Flux的三个版本

Pro

质量：Flux家族中质量最高的模型，可生成专业级结果。
访问权限：仅限于API使用，不对外提供微调功能。
适用场景：适用于需要通过API直接生成高端结果的用户。

Dev

质量：Pro版本的精简版，质量略有下降。
灵活性：支持微调，但仅限非商业用途；商业用途需获得黑森林实验室的明确授权。
适用场景：适合实验和研究用途，需遵循许可要求。

Schnell

质量：Flux模型中最开放的版本，发布于Apache 2.0 许可证之下，但质量最低。
灵活性：可公开用于微调和修改，因此在开源项目和社区开发中很受欢迎。
适用场景：非常适合商业用途。

Flux模型的演变

当 Dev 和 Schnell 版本首次发布时，它们存在一些显著的缺点：

文件大小：每个模型需下载23.6GB的巨大文件（不包括VAE和文本编码器文件）。
硬件要求：需要至少 16GB 显存 才能以合理的性能生成图像。

这些限制使得许多用户难以使用这些原始Flux模型。不过，后续的改进解决了这些问题：

fp8版本

Kijai推出了该更新，将文件大小缩减至仅11.9GB，并集成了VAE和文本编码器。
将显存需求降至 8GB，让更多用户能够使用。

GGUF版本

针对仅有 6GB显存 的系统进一步优化。
虽然效率更高，但相比早期模型质量有明显的下降。

这些改进为炼丹师们利用Schnell或Dev版本作为基础微调和发布自己的Flux模型铺平了道路。

基于Flux的微调模型

基于Flux的微调模型是使用Schnell或Dev模型为基础，由炼丹师微调而成。这些模型增加了特殊功能或改进了图像质量。本文将分析以下4个微调模型：

Shuttle 3 Diffusion
fluxRealistic
PixelWave
stoiqoNewreality

模型对比表

这些checkpoint经过优化，与最初的 Flux 模型截然不同，但仍植根于相同的架构。

模型:

PixelWave(国外): https://civitai.com/models/141592/pixelwave
PixelWave(国内): https://hf-mirror.com/mikeyandfriends/PixelWave_FLUX.1-dev_03/tree/main
stoiqoNewreality(国外): https://civitai.com/models/161068?modelVersionId=979329
stoiqoNewreality(国内):https://www.liblib.art/modelinfo/abdbdadbaba64560aa55bf3e5167c85d?versionUuid=65c657d9dba84228b98ac118080ac843
fluxRealistic(国外): https://civitai.com/models/652009/fluxrealistic
fluxRealistic(国内)：https://www.liblib.art/modelinfo/7cad59974c224712bc7a42374eaae6f0
Shuttle 3 Diffusion(国外): https://civitai.com/models/943001?modelVersionId=1058817
Shuttle 3 Diffusion(国内):https://www.liblib.art/modelinfo/85e40d3fc58a498793c1816f00e7b1e2
t5-v1_1-xxl-encoder-gguf(国外): https://huggingface.co/city96/t5-v1_1-xxl-encoder-gguf/tree/main
t5-v1_1-xxl-encoder-gguf(国内): https://hf-mirror.com/city96/t5-v1_1-xxl-encoder-gguf/tree/main

LoRA:

FLUX.1-Turbo-Alpha(国外): https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha/tree/main
FLUX.1-Turbo-Alpha(国外): https://hf-mirror.com/alimama-creative/FLUX.1-Turbo-Alpha/tree/main
Retrograde 80s(国外): https://civitai.com/models/878753?modelVersionId=983735
Retrograde 80s(国内): https://civitai.com/models/878753?modelVersionId=983735

有了前面的基础，接下来让我们看看测试方法以及如何在关键性能维度上对它们进行比较。

# 测试方法

为了评估4个基于Flux的微调模型（Shuttle 3 Diffusion、fluxRealistic、PixelWave 和 stoiqoNewreality），我们采用了一套结构化测试方法。在可控条件下对每个模型进行测试，尽量确保公平对比。不过，由于fluxRealistic模型的特殊需求，对其进行了特殊调整。

测试环境设置

统一设置

对于fluxRealistic：

由于fluxRealistic是基于GGUF的模型，需要特定的 Unet加载器（GGUF） 和 双CLIP加载器（GGUF） 节点来正常工作。
它的文本编码器也经过量化处理，因此图像生成过程需要针对性调整。
引导值(Guidance)：2.5
采样器：dpmpp_2m
调度器：sgm_uniform
VAE和种子：为所有模型使用相同的VAE和种子，以保持一致性。

checkpoint位置
所有checkpoint文件都存放于 Unet文件夹 中。
LoRA节点

一个加速生成的 Turbo LoRA。
一个应用复古美学的 1980年代风格LoRA。
第一轮测试中禁用：以评估每个模型在不进行任何风格或性能增强时的原始性能。
第二轮测试中启用：测试了两个LoRA的兼容性：

测试维度

每个模型在以下4个性能维度上进行评估：

皮肤纹理和面部细节

测试生成自然、逼真的皮肤纹理的能力。
评估眼睫毛、瞳孔和面部特征等细节渲染。

手部生成

测试生成解剖学准确且真实的手部的能力，这一直是AI模型的难点之一。

光效与美学效果

评估模型的光影平衡，以及实现特定艺术风格的能力（例如虚化、宝丽来风格）。

LoRA兼容性

分析模型对LoRA的响应能力，特别是其增强图像生成速度和风格调整的能力。

# 图像对比

在每个测试维度中，我们生成了图像并将其并排展示以便详细比较。通过此过程，突出了每个checkpoint的独特优缺点，便于轻松识别哪些模型在特定领域表现更优。

皮肤纹理和面部细节

第一个测试维度关注的是每个checkpoint渲染皮肤纹理和面部细节的能力，例如瞳孔、睫毛的清晰度以及整体面部真实感。这些方面对于创建逼真的图像，尤其是人像，至关重要。让我们来看看四个基于Flux的checkpoint在这一方面的表现。

1. PixelWave

PixelWave在这一类别中始终表现优于其他模型。
皮肤纹理自然且平滑。
面部细节（如睫毛和瞳孔）渲染精准，极具真实感。
双眼明亮且富有表现力，高光与反射自然平衡。

2. StoiqoNewreality

StoiqoNewreality生成了高质量的皮肤纹理，大部分情况下看起来非常自然。
添加了细微的细节（如雀斑），增强了图像的逼真感。
然而，它有时会在皮肤上呈现出轻微的油光感，使某些输出的真实感降低。
面部细节（如睫毛和瞳孔）总体清晰，但不如PixelWave那么锐利。

3. fluxRealistic

尽管体积小且使用了GGUF量化，fluxRealistic在这一类别中表现出色。
皮肤纹理较PixelWave和StoiqoNewreality略显平滑且缺乏细节，但对于小模型而言表现依然出色。

4. Shuttle 3 Diffusion

Shuttle 3 Diffusion在这一类别中表现明显不足。
皮肤纹理过于平滑和人工化，细节极少。
面部经常缺乏一致性，出现诸如面部特征与衣物融合的伪影。
瞳孔和睫毛等细节定义不清，导致输出效果不够真实。

比较总结

模型	皮肤纹理质量	面部细节质量	突出问题
PixelWave	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	偶有轻微伪影
StoiqoNewreality	⭐⭐⭐⭐☆	⭐⭐⭐⭐☆	某些输出中皮肤出现油光感
fluxRealistic	⭐⭐⭐☆	⭐⭐⭐	细节不足，略显平滑
Shuttle 3 Diffusion	⭐⭐☆	⭐⭐	纹理欠缺，细节不清晰

赢家：PixelWave在该类别中表现最佳，提供了整体上最好的皮肤纹理和面部细节。StoiqoNewreality排名第二，尽管结果不错，但偶尔会出现皮肤油光问题。fluxRealistic是低显存系统的高效替代选择，但细节有所欠缺。Shuttle 3 Diffusion则表现最差，输出明显较弱。

手部生成

生成逼真且解剖学准确的手部是AI模型中最具挑战性的任务之一。本测试专注于评估每个checkpoint处理这一领域的能力。我们生成了展示各种姿势和位置手部的图像进行比较。让我们看看每个checkpoint的表现。

比较总结

四个模型在此类别中的表现相对接近，没有一个模型明显优于其他模型。

光效与美学效果

光效与美学效果是创建视觉吸引力和风格化图像的关键因素。本测试评估了每个checkpoint平衡光影、处理艺术效果的能力，以及生成具有独特美学的输出能力。在此类别中，各checkpoint之间的差异尤为显著。

1. Shuttle 3 Diffusion

Shuttle 3 Diffusion在光效与美学方面表现显著不足。
生成的图像常有不自然的光线，光源之间的组合显得尴尬（如烛光与日光混合）。
模型输出平淡且缺乏深度，阴影的层次感和丰富度有限。

2. fluxRealistic

fluxRealistic在光影平衡上表现优于Shuttle 3 Diffusion。
输出的光影均衡且有一定深度感。
然而，在艺术元素（如烛台或复杂道具）中细节表现有所欠缺，显示出明显错误。

3. PixelWave

PixelWave在此类别中表现出色，生成的输出具有独特的艺术风格。
光效自然且动态，突出了高光与阴影的平衡互动。
生成的风格化图像类似于古典油画或其他精美艺术风格，增加了一种永恒且富有创意的触感。
即使在复杂场景中也能始终生成丰富的细节，并在梦幻虚化和宝丽来等效果上表现出色。

4. StoiqoNewreality

StoiqoNewreality偏向于现代美学，生成的图像鲜明且干净。
光效通常分布均匀，但偶尔高光过曝或阴影缺乏深度。
虽然没有PixelWave的油画风格，但提供了更现代化的审美。

比较总结

模型	光效质量	美学风格	突出问题
PixelWave	⭐⭐⭐⭐⭐	古典、油画风格、艺术感	创意场景中偶有轻微真实感问题
StoiqoNewreality	⭐⭐⭐⭐☆	现代、干净、鲜明	偶尔高光过曝；复杂效果稍显不足
fluxRealistic	⭐⭐⭐⭐☆	均衡但简单	缺乏艺术风格；细节表现有限
Shuttle 3 Diffusion	⭐⭐☆	平淡	不自然的光效，艺术元素表现不足

赢家：PixelWave在光效和美学效果方面脱颖而出，技术精准性与创意艺术性完美结合。StoiqoNewreality紧随其后，现代审美表现出色，但复杂效果稍逊。fluxRealistic在技术层面表现良好，但缺乏艺术冲击力，而Shuttle 3 Diffusion因光效不均衡和视觉吸引力不足大幅落后。

LoRA 兼容性

LoRA（低秩适配）是一种强大的工具，可以增强模型性能并应用风格调整。本次测试中使用了两种特定的LoRA：

Turbo LoRA：旨在加速图像生成，减少生成步骤，同时保持质量。
1980年代风格LoRA：添加以20世纪80年代视觉为灵感的复古美学。

测试checkpoint的LoRA功能是否能够有效整合，以及生成结果是否符合预期。