近日,阿里妈妈创意团队发布了 FLUX.1-Turbo-Alpha,这是基于 FLUX.1-dev 模型训练的一款8步蒸馏 Lora 模型。
该模型采用了多头判别器,显著提高了蒸馏的质量,支持文本到图像生成、修复控制网等多种 FLUX 相关的应用。团队建议在使用时将引导尺度设置为3.5,Lora 尺度为1,未来还会推出更低步数的版本。
FLUX.1-Turbo-Alpha 可以直接与 Diffusers 框架结合使用。用户只需通过几行代码便能加载模型并生成所需的图像。例如,你可以创建一个有趣的场景:一只微笑的树懒穿着皮夹克、牛仔帽、格子裙和蝴蝶结,站在一辆画有城市风景的光滑大众面包车前。只需简单调整参数,就能在1024x1024的分辨率下生成高质量的图像。
此外,该模型也兼容 ComfyUI,可以用于文本到图像的快速工作流程,或在修复控制网中实现更高效的生成效果。通过这种技术,生成的图像能够很好地跟随原始输出,提升用户的创作体验。
FLUX.1-Turbo-Alpha 的训练过程同样令人瞩目。该模型在超过100万幅开源和内部资源的图像上进行训练,具备6.3以上的美学评分,且分辨率均高于800。团队在训练过程中采用了对抗训练的方法,以提升图像质量,并针对每个变换器层增加了多头的设计。训练过程中的引导尺度固定为3.5,时间偏移则设为3,使用了混合精度 bf16,并设定学习率为2e-5,批量大小为64,图像尺寸为1024x1024。
FLUX.1-Turbo-Alpha 的推出,标志着阿里妈妈在图像生成领域的又一次突破,推动了人工智能技术的普及与应用。
项目入口:https://huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha
Diffusers
import torch
from diffusers.pipelines import FluxPipeline
model_id = "black-forest-labs/FLUX.1-dev"
adapter_id = "alimama-creative/FLUX.1-Turbo-Alpha"
pipe = FluxPipeline.from_pretrained(
model_id,
torch_dtype=torch.bfloat16
)
pipe.to("cuda")
pipe.load_lora_weights(adapter_id)
pipe.fuse_lora()
prompt = "A DSLR photo of a shiny VW van that has a cityscape painted on it. A smiling sloth stands on grass in front of the van and is wearing a leather jacket, a cowboy hat, a kilt and a bowtie. The sloth is holding a quarterstaff and a big book."
image = pipe(
prompt=prompt,
guidance_scale=3.5,
height=1024,
width=1024,
num_inference_steps=8,
max_sequence_length=512).images[0]