AuraFlow:AI绘画开源文生图模型的未来之星?

Stable Diffusion 3发布后,全球开源社区对其非常失望,一是在人物图像生成中,四肢经常扭曲,简直就是开倒车,另一个是其开源协议并不完整,商用使用需要授权,虽然最近Stablity AI改动了开源协议,百万美元以上的企业才需要商用授权,然而改变不了SD3这个阉割版模型的缺陷。

鉴于此,开源社区中很多大佬坐不住了,于是纷纷下场自己动手做一个完全开源的文生图模型。这不一周前发布了预告图。

过了不到一周,官宣的模型就出来了,正式命名AuraFlow,第一个可使用的初级模型为 AuraFlow v0.1。

AuraFlow可以说是目前完全开源的最大整流流模型(Rectified Flow Models)。说它大,一是初始版本就有6.8B参数(SD3是8B),单个模型16G大小。

AuraFlow按主要参与的大佬说法也就是三个月不到的时间完成的。正如官宣中说“AuraFlow 再次证明了开源社区的韧性和不懈的决心。”

先晒晒马,以下是官方展示图

A photo of a beautiful woman wearing a green dress. Next to her there are three separate boxes. The Box on the Right is filled with lemons. The box in the Middle has two kittens in it. The Box on the Left is filled with pink rubber balls. In the background there is a potted houseplant next to a Grand Piano.

a cat that is half orange tabby and half black, split down the middle. Holding a martini glass with a ball of yarn in it. He has a monocle on his left eye, and a blue top hat, art nouveau style

以下是开源社区大佬们的图

以下是我生成的图

技术细节方面,大佬们还没写论文,AuraFlow应该遵循了SD3的技术路线,但是做了一些改进,主要有以下几方面。

1. 改进MMDiT

虽然 MMDiT 取得了良好的性能,但研发团队发现,删除许多层以仅使用单个 DiT 块是训练这些模型的更具可扩展性和计算效率的方法。通过在小规模代理中进行仔细搜索,开发者删除了大多数 MMDiT 块并将其替换为大型 DiT 编码器块。这提高了 6.8B 规模的模型浮点利用率 15%。

2.解锁零样本学习率迁移

研发团队注意到 MMDiT 架构也是零样本 LR 迁移,并且使用了最大更新参数化。与 SP 相比,muP 在大规模学习率的可预测性方面显然是赢家。

3.重新添加提示词

重新添加提示词是确保数据集中没有错误的文本条件的常用技巧。研发团队使用内部提示词和外部提示词数据集来训练这些模型,这显著提高了指令遵循的质量。极尽全力遵循 DALL·E 3 方法,并且没有使用替代文本的提示词。

4.更宽、更短、更好!

为了进一步研究最佳架构,研究团队有兴趣制作一个更胖的模型,即让架构整体利用可被 256 整除的最大 matmul。这导致研发团队在 muP 找到的最佳学习率下寻找最佳纵横比。根据这些发现,研发团队确信 20 ~ 100 的纵横比确实适合更大规模,这与自回归生成模型的缩放定律的发现相似。而最终使用了 3072 / 36,导致模型大小为 6.8B 参数。

AuraFlow 在预训练期间的 GenEval 得分为 0.63~0.67,在 1024x1024 预训练后同样达到 0.64。但使用类似于 DALL·E 3 的快速增强管道,能够达到 0.703。

该图是SD3的 GenEval 得分比较

当然评测分也就看一看,我在实际中发现,AuraFlow v0.1在生成人物时很差劲,考虑到AuraFlow v0.1仅是未完成的初始版,也可以理解。AuraFlow v0.1在生成物体空间构成和色彩上已经表现出DiT模型特有的优势。

使用方面,官方开放了在线免费试用页面。

另外已经可以在Comfyui中使用 AuraFlow v0.1模型。只要Comfyui是能支持SD3的最新版,将AuraFlow v0.1模型下载在Comfyui模型目录中,就可以使用了。文后会放模型和工作流链接。

目前AuraFlow 还在继续训练中,期待研发团队尽快推出SD3的替代版,这将是开源社区的又一次胜利。

资料软件免费放送

次日同一发放请耐心等待

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程,模型插件,具体看下方。

需要的可以扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

**一、AIGC所有方向的学习路线**

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
这份完整版的学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值