Stable Diffusion 3横空出世！模型与Sora同架构，也能理解物理世界

最新推荐文章于 2025-04-21 21:25:27 发布

AI绘画百宝箱

最新推荐文章于 2025-04-21 21:25:27 发布

阅读量1k

点赞数 26

文章标签： 1024程序员节 midjourney AI作画人工智能 stable diffusion

本文链接：https://blog.csdn.net/m0_59162559/article/details/143209847

版权

最近，每天都有新炸弹，各家纷纷开大了。

昨天的炸弹，是Stable Diffusion 3。

AI生图效果，再次到达全新里程碑！

Prompt：Epic
anime artwork of a wizard atop a mountain at night casting a cosmic spell
into the dark sky that says “Stable Diffusion 3” made out of colorful energy

提示（意译版）：在一幅充满史诗感的动漫画面中，一位巫师屹立于夜幕笼罩的山巅之上，正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放，化作由五彩缤纷的能量构成的「Stable
Diffusion 3」字样，犹如夜空中最璀璨的星辰。

网友复刻版，同样惊艳：

网友惊呼：这种prompt的一致性是我见过最好的！

这次的Stable Diffusion 3，在图像质量、多个对象、拼写能力方面，都得到了显著提升。

甚至，它似乎还涌现出了对物理世界的「理解」。

Prompt: A horse balancing on
top of a
colorful ball in a field with green grass and a mountain in the background.

提示（意译版）：一匹马优雅地站在一个五彩斑斓的球上，周围是一片生机勃勃的绿色草地。远处，一座雄伟的山峦巍峨地矗立。

Prompt：Photo of a red sphere on top of a blue
cube. Behind
them is a green triangle, on the right is a dog, on the left is a cat

提示：一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形，在右边是一只狗，在左边是一只猫。

而DALL-E 3就相形见拙了。

关于Stable Diffusion 3.0的核心技术进展，CEO Emd总结了一份「太长不看版」摘要——

- 采用了与Sora类似的Diffusion Transformer技术，并结合了流匹配（Flow Matching）等多项技术改进。

- 通过利用对Transformer的改进，不仅使得系统扩展性更强，还能处理多种类型的输入数据。

- 将以开源形式发布，通过预览版的测试来进一步提升系统的质量和安全性。

- 发布时，将包含一套完整的工具。

- 基于最新硬件技术打造的新平台，可以支持多种规模的版本。

- 支持生成视频、3D以及更多类型的内容创作。

- 需要更多的GPU来实现更强大的计算能力。

不得不说，最近这段时间，DiT实火！

目前，模型可选择的参数范围在800M到8B之间。

现在，已经可以在这里加入候补名单，申请SD3的访问权限了：https://stability.ai/stablediffusion3

Stable Diffusion 3，文字渲染能力超进化

按照prompt生成指定文字，一直以来都是文生图模型的老大难问题。

从左到右：DeepFloyd IF、DALLE-2、Bing Image Creator、Midjourneyv5.2、SDXL v0.9（2023年7月）

但是这次，SD3模型对于prompt理解得很好，在黑板上正确写出了「go big or go home」。

而且画面非常写实，远近位置、光影，都显得极其自然。

Prompt: cinematic photo of a red apple on a table in a classroom, on the
blackboard are the words “go big or go home” written in chalk.

提示（意译版）：这张电影级视觉效果的照片，捕捉到了一个静谧的教室瞬间，一颗鲜红的苹果静静地躺在桌子上，而在它背后的黑板上，则用醒目的粉笔字写着——「要么做大，要么回家」。

相比之下，Midjourney的图是这样的：

Gemini Advanced / Ultra的图是这样的：

DALL-E 3的图是这样的：

各种形式的文字渲染，SD3 都出色地完成了。

Prompt：Resting on the kitchen table is an embroidered cloth with the text
‘good night’ and an embroidered baby tiger. Next to the cloth there is a lit
candle. The lighting is dim and dramatic.

提示：厨房桌上铺着一块精美的绣布，上面绣着「good night」字样和一只可爱的小老虎。旁边，一支蜡烛静静燃烧，散发出柔和而略带戏剧性的光影。

Prompt：Photo of an 90’s desktop computer on a work desk, on the computer
screen it says “welcome”. On the wall in the background we see beautiful
graffiti with the text “SD3” very large on the wall.

提示：一台放在工作桌上的90年代的台式电脑，屏幕上写着「welcome」。在背后的墙面上，有一幅醒目的涂鸦艺术作品，写的是「SD3」。

Prompt: Anime style illustration of a newsstand on top of a small grassy
hill, on top of the newsstand we see the text “it’s here!”. In the
background we see a big rain approaching.

提示：这是一幅充满动漫特色的插画，一个报刊亭坐落在一片绿意盎然的小山丘上，亭顶醒目地展示着「it’s
here!」的字样。而在这个宁静的场景背后，一场壮观的暴雨即将来临。

Prompt: Night photo of a sports car with the text “SD3” on the side, the car
is on a race track at high speed, a huge road sign with the text “faster”.

提示：在这幅夜幕下的摄影作品中，一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里，一块巨大的路牌显眼地展示着「faster」一词。

Prompt: Three transparent glass bottles on a wooden table. The one on the
left has red liquid and the number 1. The one in the middle has blue liquid
and the number 2. The one on the right has green liquid and the number 3.

提示：一张木桌上摆放着三个透明的玻璃瓶。从左至右，每个瓶子内分别充满了鲜艳的红、蓝、绿色液体。瓶子上，用数字1、2、3进行了标记。

Prompt: Photo of a rectangular orange neon sign with the text “even more
stable”, the sign is on the wall in a metro station, subway speeding by in
the background, perspective photo.

Stable Diffusion 3.0能在文字渲染能力上取得显著提升，是因为Stability
AI在新模型中采用了全新技术——Transformer和新增的文本编码功能。

CEO Emad Mostaque解释说，因为上述原因，现在SD 3不仅能生成完整句子，还能保持风格的一致性。

宇航员骑着粉色芭蕾舞裙猪，除SD 3竟然全军覆没？

处理包含多个对象的Prompt的能力，也是考核AI生图模型的一大关键指标。

下面这个prompt，着实难倒了一大片选手——

一幅宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画，猪旁边的地上是一只戴着高顶帽子的知更鸟，画面的角落里写着「stable diffusion」。

这个prompt，要求模型正确理解对象的属性、位置，以及正确呈现字体很小的文本，着实是一道难题。

如此要素拉满的细节要求，SD3.0全部理解，并且精确地完成了！

宇航员，粉色雨伞、穿着粉芭蕾舞裙的猪、戴高帽的知更鸟、角落里的字，100%符合prompt的要求。这就表明：模型很好地理解了prompt。

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a
pink umbrella, on the ground next to the pig is a robin bird wearing a top
hat, in the corner are the words “stable diffusion”

对于同一prompt，其他模型的表现就落后了。

DALL-E 3画出的画倒是过关了，但它把「Diffusion」拼错了。

Bing的表现就更是离谱了，有的图中芭蕾舞裙的颜色不对，有的知更鸟站在了猪脑袋上，有的更是画面中飞满了知更鸟。而「Stable
Diffusion」更是错得离谱。

Gemini Advanced这个差生的答案就更惨不忍睹了，除了拼写问题，画也没画对。

下面出场的，就是以画面质量精美著称的优秀文生图选手Midjourney了。

从画面美感上说，MJ依然甩其他模型一条街，但是考试就是考试，「Stable Diffusion」，它也没拼对。

总结下来，这一道考题唯一的满分选手，就是Stable Diffusion 3！

和Sora同样的Diffusion Transformer架构

所以，Stable Diffusion 3.0为何有如此突飞猛进的表现？

原因在于，它采用了全新的架构设计。

Stability AI的首席执行官Emad Mostaque表示——

「Stable Diffusion 3 采用了Diffusion
Transformer架构，这是一种新型的架构设计，与OpenAI最近推出的Sora模型采用的架构相似。」

在以前的Stable Diffusion版本中，并未采用Transformer技术。

而Stable Diffusion 3.0采用了一种全新的方法，引入了Diffusion Transformer
技术。如果你对最近的爆火的sora有所了解，肯定对这个技术已经耳熟能详了。

Transformer技术是，当前生成式AI革命的核心，广泛应用于文本生成模型中。而图像生成技术，则主要基于Diffusion模型。

Sora作者之一William和谢赛宁，在这篇论文中共同提出了Sora的基础架构。

论文地址：https://arxiv.org/abs/2212.09748

这篇详细介绍DiTs的论文指出，这种基于扩散模型的新架构，可以用在图像patch上运行的Transformer替代了传统的U-Net架构。

这样，DiTs方法就可以更高效地利用计算资源，并且在图像生成方面超越了其他扩散模型技术。

一篇因「缺乏创新性」被CVPR 2023拒收的论文，竟成了Sora和Stable Diffusion
3.0的奠基之作，学术创新和工程创新的区别，着实引人深究。

Stable Diffusion 3.0 的另一个创新亮点，就是流匹配技术。

一篇关于流匹配的研究论文介绍了这一新方法，它可以用于训练连续归一化流（Continuous Normalizing Flows,
CNFs），以便更准确地模拟复杂的数据分布。

论文地址：https://arxiv.org/abs/2210.02747

研究表明，通过结合使用条件流匹配（Conditional Flow Matching,
CFM）和最优传输路径，可以实现更快的训练速度、更高效的样本生成，并且在性能上超越传统的扩散路径方法。

其实，Stability AI一直在探索多种新颖的图像生成技术。

就在本月初，他们就推出了一项名为Stable Cascade的新技术。

它基于一种名为Würstchen的先进架构，旨在提升生成图像的性能和精确度。

一大波整活来了

在图像质量上，SD 3.0也取得了令人震惊的进步。

「变色龙在黑色背景上的摄影棚照片特写」，它生成的图是这样的。

Prompt：studio photograph closeup of a chameleon over a black background.

Gemini Advanced/Ultra生图是这样的。

Midjourney是这样的。

因为题干没有区分度，所以大家表现差不多。

从更多的演示中可以看出，无论是在自然写实风景，还是在漫画、海报中，SD 3不仅做到了正确还原文字，还让文字和画面做到了很好的融合，一点都不突兀。

Prompt: Trees photographed under the Milky Way, the moon and twilight shine
on the Valley. The full moon appears high in the sky and the twilight glow
can still be seen.

再比如黑客帝国中的Neo狗。

威尔史密斯吃面，AI模型的终极图灵测试。

2024年才一开年，节奏就已经这么炸裂了。今年注定是AIGC史上不平凡的一年。

针对各位AIGC初学者，这里列举了一条完整的学习计划，感兴趣的可以阅读看看，希望对你的学习之路有所帮助，废话不多说，进入正题：目标应该是这样的：

第一阶段（30天）：AI-GPT从入门到深度应用

该阶段首先通过介绍AI-GPT从入门到深度应用目录结构让大家对GPT有一个简单的认识，同时知道为什么要学习GPT使用方法。然后我们会正式学习GPT深度玩法应用场景。

-----------

GPT的定义与概述
GPT与其他AI对比区别
GPT超强记忆力体验
万能GPT如何帮你解决一切问题？
GPT表达方式优化
GPT多类复杂应用场景解读
3步刨根问底获取终极方案
4步提高技巧-GPT高情商沟通
GPT深度玩法应用场景
GPT高级角色扮演-教学老师
GPT高级角色扮演-育儿专家
GPT高级角色扮演-职业顾问
GPT高级角色扮演-专业私人健身教练
GPT高级角色扮演-心理健康顾问
GPT高级角色扮演-程序UX/UI界面开发顾问
GPT高级角色扮演-产品经理
GPT高级技巧-游戏IP角色扮演
GPT高级技巧-文本冒险游戏引导
GPT实操练习-销售行业
GPT实操练习-菜谱推荐
GPT实操练习-美容护肤
GPT实操练习-知识问答
GPT实操练习-语言学习
GPT实操练习-科学减脂
GPT实操练习-情感咨询
GPT实操练习-私人医生
GPT实操练习-语言翻译
GPT实操练习-作业辅导
GPT实操练习-聊天陪伴
GPT实操练习-育儿建议
GPT实操练习-资产配置
GPT实操练习-教学课程编排
GPT实操练习-活动策划
GPT实操练习-法律顾问
GPT实操练习-旅游指南
GPT实操练习-编辑剧本
GPT实操练习-面试招聘
GPT实操练习-宠物护理和训练
GPT实操练习-吸睛爆款标题生成
GPT实操练习-自媒体爆款软件拆解
GPT实操练习-自媒体文章创作
GPT实操练习-高效写作推广方案
GPT实操练习-星座分析
GPT实操练习-原创音乐创作
GPT实操练习-起名/解梦/写诗/写情书/写小说
GPT提升工作效率-Word关键字词提取
GPT提升工作效率-Word翻译实现
GPT提升工作效率-Word自动填写、排版
GPT提升工作效率-Word自动纠错、建议
GPT提升工作效率-Word批量生产优质文章
GPT提升工作效率-Excel自动化实现数据计算、分析
GPT提升工作效率-Excel快速生成、拆分及合并实战
GPT提升工作效率-Excel生成复杂任务实战
GPT提升工作效率-Excel用Chat Excel让效率起飞
GPT提升工作效率–PPT文档内容读取实现
GPT提升工作效率–PPT快速批量调整PPT文档
GPT提升工作效率-文件批量创建、复制、移动等高效操作
GPT提升工作效率-文件遍历、搜索等高效操作
GPT提升工作效率-邮件自动发送
GPT提升工作效率-邮件自动回复
GPT接入QQ与QQ群实战
GPT接入微信与微信群实战
GPT接入QQ与VX多用户访问实战
GPT接入工具与脚本部署实战

第二阶段（30天）：AI-绘画进阶实战

该阶段我们正式进入AI-绘画进阶实战学习，首先通过了解AI绘画定义与概述，AI绘画的应用领域，PAI绘画与传统绘画的区别，AI绘画的工具分类介绍的基本概念，以及AI绘画工具Midjourney、Stable Diffusion的使用方法，还有AI绘画插件和模板的使用为我们接下来的实战设计学习做铺垫。