🎡背景
Black Forest Labs 是由 Stable Diffusion 原班人马成立的公司,致力于研发优质的多模态模型并开源。该公司由多位前 Stability AI 研究员组成,包括 Robin Rombach 在内的团队成员,他们在图像和视频生成领域有着杰出的贡献,包括 VQGAN、Latent Diffusion 以及 Stable Diffusion 模型等 。
2024年8月1号,也就是前天,Black Forest Labs 推出了名为 FLUX.1 的开源 AI 图像生成模型系列,包含三个变体:FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]。这些模型在视觉质量、提示词遵循能力、尺寸/宽高比可变性、排版和输出多样性等方面,都超越了当前市场上的多个流行模型,如 Midjourney v6.0、DALL·E 3 (HD) 和 Stable Diffusion 3-Ultra 3。
(当然,号称超越Midjourney各个版本的模型有很多,实际效果大家懂的都懂,这次实际效果会如何呢?待会儿我们测试看看)
FLUX.1 模型采用了多模态架构和并行扩散 Transformer 结构,通过流匹配方法改进了传统的扩散模型,引入了旋转位置嵌入技术和并行注意力层,以增强模型对图像中不同位置特征的识别能力和捕捉长距离依赖关系的能力 。
此外,Black Forest Labs 已经完成了 3100 万美元(约合人民币 2.25 亿元)的种子轮融资,并预告将发布 SOTA 视频模型,该公司在视频生成领域的潜力巨大,可能会成为该领域的一匹黑马。
如果FLUX.1质量的确不错的话,那么SOTA视频模型也就非常值得期待了。
🎠看跑分
大模型大家都喜欢跑个分,我们简单看下官方给出的跑分和效果图:
从跑分上乍一看,FLUX.1比前一段时间Stability发布的SD3-Midium强了小一半的样子,实际上仔细一看,这个跑分左侧的值是从900开始到1060,所以如果sd3-midium是990分的话,Flux.1的三个版本大概是1020~1055左右,所以强了30分~65分,貌似...还好。
不得不说,这些评测机构是懂心理暗示的。
让我想起来SD3发布的时候发布的那个奇葩的评测角度:
那么,啥是ELO Score呢?稍微查了下资料:
ELO评分系统是由物理学家阿帕德·埃洛(Arpad Elo)创建的,最初用于评估国际象棋选手的相对实力。ELO系统基于数学模型,通过选手之间的比赛结果来调整各自的评分,从而反映出他们的实力水平。ELO评分系统后来也被广泛应用于其他各种竞技领域,如围棋、足球、电子竞技、大模型评估等。
计算 Elo Score 的过程涉及到每个对局的结果和参与对局的模型的当前评分。胜利会导致评分提高,失败则会导致评分下降。评分的变化量取决于对手的相对水平,即对手评分越高,胜利带来的评分增加越多,反之亦然。这种评估方法不仅考虑到了任务的结果,还考虑到了对手的实力,使得模型之间的相对性能更具可解释性和比较性。
简单理解的话:这是个相对评分,所以简单看看就好。
看下官方的样图:
一黑板的文字这张图是有点厉害了,别的模型还没见过...不过待会儿我们测试看看。
🥽模型下载与使用方法
首先是网盘下载地址:点击下载
打开你会看到这么几个文件:
下载到本地后,模型放置位置如下:
1、将t5xxl_fp8_e4m3fn.safetensors、t5xxl_fp16.safetensors和clip_l.safetensors放在models\clip文件夹下:
2、将flux1-dev.sft和flux1-schnell.sft两个FLUX1模型本体放在models\unet文件夹下,可以新建二级目录,我这里放在了unet下FLUX1目录下,这样unet目录下模型多了比较好区分, (直接放在unet文件夹下也可以);
3、将ae.sft放在models/vae目录下;
完成配置之后,下载文件中的这两个图片是两个工作流,分别用于测试flux.dev和flux.schnell的,原图拖拽到comfyui中即可查看,大家自行测试就好。
注:
1、在使用的过程中,如果你的内存(注意是内存,不是显存)不到32G的话,t5xxl模型可以使用t5xxl_fp8_e4m3fn.safetensors,但是如果你的内存超过32G,那么建议使用t5xxl_fp16.safetensors,效果会更好;
2、如果提示内存不足,可以在“Load Diffusion Model”中的weight_dtype中选择fp8,可以减少一半内存使用量,但是相应的,生成质量会下降一丢丢;
对应的comfyui作者原文:
If you don’t have t5xxl_fp16.safetensors or clip_l.safetensors already in your ComfyUI/models/clip/ directory you can find them on: this link. You can use t5xxl_fp8_e4m3fn.safetensors instead for lower memory usage but the fp16 one is recommended if you have more than 32GB ram.
The VAE can be found here and should go in your ComfyUI/models/vae/ folder.
Tips if you are running out of memory:
You can set the weight_dtype in the “Load Diffusion Model” node to fp8 which will lower the memory usage by half but might reduce quality a tiny bit.
🧸生成速度参考
首先是生成速度方面,flux_dev模型,默认的20步参数生成,在4090显卡,64G内存的机器上,大概需要30~40秒生成一张1024x1024的图像;
而蒸馏模型flux_schnell模型,默认只需要4步,大概需要15秒生成一张1024x1024的图像;
🍩生成质量参考
下一篇,我们对比下开源版本中效果最好的一个搭配:flux1_dev模型+t5xxl_fp16+clip_l+20步,对比midjourney V6,选几个典型场景,看下生成效果到底如何;
记得关注我哦,暂定明天更新~
✨写在最后
如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,开了一门图文课程,现在已经更新完成了,如果大家在学习过程中遇到什么问题,也可以直接文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~
https://blog.csdn.net/jumengxiaoketang/category_12683612.html
感谢大家的支持~