🎡背景
Black Forest Labs 是由 Stable Diffusion 原班人马成立的公司,致力于研发优质的多模态模型并开源。该公司由多位前 Stability AI 研究员组成,包括 Robin Rombach 在内的团队成员,他们在图像和视频生成领域有着杰出的贡献,包括 VQGAN、Latent Diffusion 以及 Stable Diffusion 模型等 。
2024年8月1号,也就是前天,Black Forest Labs 推出了名为 FLUX.1 的开源 AI 图像生成模型系列,包含三个变体:FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]。这些模型在视觉质量、提示词遵循能力、尺寸/宽高比可变性、排版和输出多样性等方面,都超越了当前市场上的多个流行模型,如 Midjourney v6.0、DALL·E 3 (HD) 和 Stable Diffusion 3-Ultra 3。
(当然,号称超越Midjourney各个版本的模型有很多,实际效果大家懂的都懂,这次实际效果会如何呢?待会儿我们测试看看)
FLUX.1 模型采用了多模态架构和并行扩散 Transformer 结构,通过流匹配方法改进了传统的扩散模型,引入了旋转位置嵌入技术和并行注意力层,以增强模型对图像中不同位置特征的识别能力和捕捉长距离依赖关系的能力 。
此外,Black Forest Labs 已经完成了 3100 万美元(约合人民币 2.25 亿元)的种子轮融资,并预告将发布 SOTA 视频模型,该公司在视频生成领域的潜力巨大,可能会成为该领域的一匹黑马。
如果FLUX.1质量的确不错的话,那么SOTA视频模型也就非常值得期待