AuraFlow：AI绘画开源文生图模型的未来之星？

最新推荐文章于 2024-07-22 10:55:49 发布

AIGC阿道夫

最新推荐文章于 2024-07-22 10:55:49 发布

阅读量1.1k

点赞数 14

本文链接：https://blog.csdn.net/text2203/article/details/140450555

版权

Stable Diffusion 3发布后，全球开源社区对其非常失望，一是在人物图像生成中，四肢经常扭曲，简直就是开倒车，另一个是其开源协议并不完整，商用使用需要授权，虽然最近Stablity AI改动了开源协议，百万美元以上的企业才需要商用授权，然而改变不了SD3这个阉割版模型的缺陷。

鉴于此，开源社区中很多大佬坐不住了，于是纷纷下场自己动手做一个完全开源的文生图模型。这不一周前发布了预告图。

过了不到一周，官宣的模型就出来了，正式命名AuraFlow，第一个可使用的初级模型为 AuraFlow v0.1。

AuraFlow可以说是目前完全开源的最大整流流模型（Rectified Flow Models）。说它大，一是初始版本就有6.8B参数（SD3是8B），单个模型16G大小。

AuraFlow按主要参与的大佬说法也就是三个月不到的时间完成的。正如官宣中说“AuraFlow 再次证明了开源社区的韧性和不懈的决心。”

先晒晒马，以下是官方展示图

A photo of a beautiful woman wearing a green dress. Next to her there are three separate boxes. The Box on the Right is filled with lemons. The box in the Middle has two kittens in it. The Box on the Left is filled with pink rubber balls. In the background there is a potted houseplant next to a Grand Piano.

a cat that is half orange tabby and half black, split down the middle. Holding a martini glass with a ball of yarn in it. He has a monocle on his left eye, and a blue top hat, art nouveau style

以下是开源社区大佬们的图

以下是我生成的图

技术细节方面，大佬们还没写论文，AuraFlow应该遵循了SD3的技术路线，但是做了一些改进，主要有以下几方面。

1. 改进MMDiT

虽然 MMDiT 取得了良好的性能，但研发团队发现，删除许多层以仅使用单个 DiT 块是训练这些模型的更具可扩展性和计算效率的方法。通过在小规模代理中进行仔细搜索，开发者删除了大多数 MMDiT 块并将其替换为大型 DiT 编码器块。这提高了 6.8B 规模的模型浮点利用率 15%。

2.解锁零样本学习率迁移

研发团队注意到 MMDiT 架构也是零样本 LR 迁移，并且使用了最大更新参数化。与 SP 相比，muP 在大规模学习率的可预测性方面显然是赢家。

3.重新添加提示词

重新添加提示词是确保数据集中没有错误的文本条件的常用技巧。研发团队使用内部提示词和外部提示词数据集来训练这些模型，这显著提高了指令遵循的质量。极尽全力遵循 DALL·E 3 方法，并且没有使用替代文本的提示词。

4.更宽、更短、更好！

为了进一步研究最佳架构，研究团队有兴趣制作一个更胖的模型，即让架构整体利用可被 256 整除的最大 matmul。这导致研发团队在 muP 找到的最佳学习率下寻找最佳纵横比。根据这些发现，研发团队确信 20 ~ 100 的纵横比确实适合更大规模，这与自回归生成模型的缩放定律的发现相似。而最终使用了 3072 / 36，导致模型大小为 6.8B 参数。

AuraFlow 在预训练期间的 GenEval 得分为 0.63~0.67，在 1024x1024 预训练后同样达到 0.64。但使用类似于 DALL·E 3 的快速增强管道，能够达到 0.703。

该图是SD3的 GenEval 得分比较