如何看待SD3 版本，和SDXL相比有何优势？

最新推荐文章于 2025-03-11 11:33:44 发布

AI绘画哇哒哒

最新推荐文章于 2025-03-11 11:33:44 发布

阅读量3k

点赞数 15

文章标签：人工智能 stable diffusion midjourney AIGC AI作画 chatgpt AI写作

本文链接：https://blog.csdn.net/2401_84815887/article/details/139736393

版权

胖友们好！！！痴迷AI的本枕又来写Stable Diffusion了……

SD社区群众们翘首企盼的SD3的weights总算在huggingface上发布了

于是我也在当天非常激动地用ComfyUI生成了一些图像……

这篇文章算是半个评测半个心得吧，因为有些东西是我认为很重要、玩SD3如果要玩出它的正常水平一定一定需要知道的，另外一些内容就是我自己的一些测试图片，那些也不是很重要……

※以下内容仅针对SD3的Medium+T5XXL版本

※别看T5XXL版本有整整10GB，我的4070跑起来完全没有问题，速度只比SDXL慢一点点

相较于 SDXL，SD3 拥有更强的语义理解能力，更真实的人像体验，更丰富的细节，更准确的文字生成。

stable-diffusion-3-medium 的模型一共有三个：sd3_medium_incl_clips.safetensors、sd3_medium_incl_clips_t5xxlfp8.safetensors、sd3_medium_incl_clips_t5xxlfp16.safetensors，带 t5xxlf 的模型相比不带 t5xxlf 的模型就是文字生成能力更强，fp8 相对于 fp16 就是质量生成方面会有所降低，但是更省资源，达成一个质量换资源的平衡。

基础模型大概需要 8G 显存，t5xxlfp8 大概需要 12G 的显存，t5xxlfp16 大概需要 16G 的显存。

其实官方是提供了 4 个模型的，不过最最小的那个模型需要特殊的工作流并且搭配特定的文本编码器才行，还得下十几个 G 的模型没必要，直接用上边这三个模型就可以了，已经把文本编码器内置了。

使用以上这三个模型的话，我们只需要最基础的文生图工作流就可以搞定。

先用官方默认的提示词来对比下三个模型的出图效果吧。

提示词这里就直接翻译成中文显示了。

提示词：一个留着飘逸长发的女性角色，看起来是由类似北极光或北极光的空灵漩涡图案制成的。背景以深蓝色和紫色为主，营造出一种神秘而富有戏剧性的氛围。这个角色的脸是平静的，苍白的皮肤和引人注目的特征。她穿了一套深色的衣服，上面有精致的花纹。艺术品的整体风格让人想起奇幻或超自然的流派。

看起来区别不是很大，t5xxlfp8 和 t5xxlfp16 的效果更接近一些。

所以如果内存比较小的话，使用最小的模型就可以了，也不用纠结。

我们再来看看生成文字方面的效果。

提示词：桌子上摆着三个精致的瓶子，左边的瓶子写着"S"，中间的瓶子写着"D"，右边的瓶子写着"3"

基础模型也不是不行，起码SD两个字母是输出了，只不过正确率没有后边两个模型高，把 3 给漏了。

提示词：一块精致的黑板上写着“I've walked through this time”

多试几次基础模型也可以生成准确的文字，这里后边两个模型都翻车了，所以只能说明后边两个模型生成准确文字的概率更大，但是不代表基础模型就不行。

生成文字就先到这里了，然后我们来看看他们的语义理解能力吧。

提示词：红色的草地上有一张蓝色的桌子，桌子上有三个玻璃瓶子，左边的瓶子是白色的，中间的瓶子是红色的，右边的瓶子是黑色的。

没啥问题，颜色也都是准确的。

再来看看 SD3 的空间理解能力。

提示词：有一个三层的立方体，一个红色的立方体在顶部，放在绿色的立方体上，绿色的立方体在中间，放在一个蓝色的立方体上，蓝色的立方体在底部。

也不错，当然凡事都是有概率的，没法保证每次生成的结果都如我们的心意，多试几次就好了。

再来看看 SD3 的对于不同物体的融合效果，或者创造性如何。

提示词：一个沙发，形状和梨很像

融合效果也不错，还是能大体看出来梨的形状的。

再来试试人物生成吧。

提示词：拍摄一个美丽、充满活力的（年轻：1.2）女人，（25:1.1）岁，在（电影：1.4）环境中，用（复杂：1.3）细节和（生动：1.2）颜色，以（杰作：1.5）绘画的风格，50毫米。电影，4k史诗般的细节，4k的史诗般的详细，在柯达拍摄的照片，详细的电影，hbo深色moody，35mm照片，颗粒，小插曲，复古，柯达彩色，Lomography，染色，高度详细，找到的镜头

大家自己看效果吧。

不过在某些情况下，基础模型的理解以及表现力比后两个模型的确要差点意思，毕竟人家模型小嘛，总是会牺牲一些质量的。

翻译成中文总感觉差点意思，就不翻译了。

提示词：cinematic photo a ghost,(by Kawacy:1.1),(by ahegao:1.3),Embrace the fragmented beauty of a mosaic break free from the face,bleeding with hints of mechanical wonder,Explore the eloquence of shattered body parts in an evocative artistic expression,8k,atmospheric,ecstasy of translucent musical notes,streaming musical notes visible,aesthetic,creative,surreal,beautiful,inspired,artistic,elegant,stylish,. 35mm photograph,film,bokeh,professional,4k,highly detailed,

基础模型在细节上的打磨还是差点意思，遗漏了一些细节，抽卡了很多次都出不来后边两张图的效果，感觉就是语义理解上有些问题。

不过大多数情况下，这三个模型的区别不是很大，当然如果配置够的话，建议大家使用 t5xxlfp8 的模型，和 t5xxlfp16 的语义理解以及出图效果都有的一拼，主要是省了 4G 显存。

好了，今天的分享就到这里了，感兴趣的小伙伴快去试试吧！

最后想说

AIGC（AI Generated Content）技术，即人工智能生成内容的技术，具有非常广阔的发展前景。随着技术的不断进步，AIGC的应用范围和影响力都将显著扩大。以下是一些关于AIGC技术发展前景的预测和展望：

1、AIGC技术将使得内容创造过程更加自动化，包括文章、报告、音乐、艺术作品等。这将极大地提高内容生产的效率，降低成本。2、在游戏、电影和虚拟现实等领域，AIGC技术将能够创造更加丰富和沉浸式的体验，推动娱乐产业的创新。3、AIGC技术可以帮助设计师和创意工作者快速生成和迭代设计理念，提高创意过程的效率。

未来，AIGC技术将持续提升，同时也将与人工智能技术深度融合，在更多领域得到广泛应用。感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程。

对于从来没有接触过AI绘画的同学，我已经帮你们准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。