StableDiffusion3 官方blog论文研究

最新推荐文章于 2025-05-07 10:39:57 发布

聚梦小课堂

最新推荐文章于 2025-05-07 10:39:57 发布

阅读量1.2k

点赞数 29

文章标签：人工智能 stable diffusion SD3 DiT ai绘画 AI作画开源模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jumengxiaoketang/article/details/136608065

版权

博客源地址：Stable Diffusion 3: Research Paper — Stability AI

论文源地址：https://arxiv.org/pdf/2403.03206.pdf

Stability.AI 官方发布了Stable diffusion 3.0的论文研究，不过目前大家都沉浸在SORA带来的震撼中，所以这个水花貌似也就被忽略了。但，毕竟绘画领域里边最大的开源模型，还是多少可以关注一下。

🎇首先看一下模型表现

这张图直接把我看懵了，为何在这张图中，SDXL 和SDXL turbo都这么高的胜率，而且超过MJ6.0,后来仔细理解了下blog的说辞，才明白这个是以SD3作为基线，赢过这些模型的比例，三个维度分别是美学评分，提示词跟随程度和文字识别“排版”能力。

基于这张图，大概可以看出，在文字识别能力方面，SD3的胜率整体非常高，而在美学评分方面，略微比MJ6和DALLE3强一点。

但问题是，个人体验的MJ6和DALLE3根本不在一个档次上，MJ6还是强很多的。并且基于官方已经发布的模型生成的图片来看，并没有觉得生成质量能比MJ6能强，所以这个还是等模型实际发布之后再看吧，毕竟这种评分都是按照“人类反馈评估”来得出的，并非是一个绝对客观的数值。

官方对SD3的评价说法是：根据我们的测试结果，我们发现 Stable Diffusion 3 在上述所有领域均等于或优于当前最先进的文本到图像生成系统。

emm... 他开心就好。

官方还提到一点，在硬件测试过程中，官方最大的8B参数SD3模型“适合”RTX4090的24G显存，并且生成一张1024x1024的图像，需要50次迭代和34秒的时间，emm，可以说“普及”基

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

聚梦小课堂 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。