如何看待SD3 版本,和SDXL相比有何优势?

胖友们好!!!痴迷AI的本枕又来写Stable Diffusion了……

SD社区群众们翘首企盼的SD3的weights总算在huggingface上发布了

于是我也在当天非常激动地用ComfyUI生成了一些图像……

这篇文章算是半个评测半个心得吧,因为有些东西是我认为很重要、玩SD3如果要玩出它的正常水平一定一定需要知道的,另外一些内容就是我自己的一些测试图片,那些也不是很重要……

※以下内容仅针对SD3的Medium+T5XXL版本

※别看T5XXL版本有整整10GB,我的4070跑起来完全没有问题,速度只比SDXL慢一点点

相较于 SDXL,SD3 拥有更强的语义理解能力,更真实的人像体验,更丰富的细节,更准确的文字生成。

stable-diffusion-3-medium 的模型一共有三个:sd3_medium_incl_clips.safetensors、sd3_medium_incl_clips_t5xxlfp8.safetensors、sd3_medium_incl_clips_t5xxlfp16.safetensors,带 t5xxlf 的模型相比不带 t5xxlf 的模型就是文字生成能力更强,fp8 相对于 fp16 就是质量生成方面会有所降低,但是更省资源,达成一个质量换资源的平衡。

基础模型大概需要 8G 显存,t5xxlfp8 大概需要 12G 的显存,t5xxlfp16 大概需要 16G 的显存。

其实官方是提供了 4 个模型的,不过最最小的那个模型需要特殊的工作流并且搭配特定的文本编码器才行,还得下十几个 G 的模型没必要,直接用上边这三个模型就可以了,已经把文本编码器内置了。

使用以上这三个模型的话,我们只需要最基础的文生图工作流就可以搞定。

先用官方默认的提示词来对比下三个模型的出图效果吧。

提示词这里就直接翻译成中文显示了。

提示词:一个留着飘逸长发的女性角色,看起来是由类似北极光或北极光的空灵漩涡图案制成的。背景以深蓝色和紫色为主,营造出一种神秘而富有戏剧性的氛围。这个角色的脸是平静的,苍白的皮肤和引人注目的特征。她穿了一套深色的衣服,上面有精致的花纹。艺术品的整体风格让人想起奇幻或超自然的流派。

看起来区别不是很大,t5xxlfp8 和 t5xxlfp16 的效果更接近一些。

所以如果内存比较小的话,使用最小的模型就可以了,也不用纠结。

我们再来看看生成文字方面的效果。

提示词:桌子上摆着三个精致的瓶子,左边的瓶子写着"S",中间的瓶子写着"D",右边的瓶子写着"3"

基础模型也不是不行,起码SD两个字母是输出了,只不过正确率没有后边两个模型高,把 3 给漏了。

提示词:一块精致的黑板上写着“I've walked through this time”

多试几次基础模型也可以生成准确的文字,这里后边两个模型都翻车了,所以只能说明后边两个模型生成准确文字的概率更大,但是不代表基础模型就不行。

生成文字就先到这里了,然后我们来看看他们的语义理解能力吧。

提示词:红色的草地上有一张蓝色的桌子,桌子上有三个玻璃瓶子,左边的瓶子是白色的,中间的瓶子是红色的,右边的瓶子是黑色的。

没啥问题,颜色也都是准确的。

再来看看 SD3 的空间理解能力。

提示词:有一个三层的立方体,一个红色的立方体在顶部,放在绿色的立方体上,绿色的立方体在中间,放在一个蓝色的立方体上,蓝色的立方体在底部。

也不错,当然凡事都是有概率的,没法保证每次生成的结果都如我们的心意,多试几次就好了。

再来看看 SD3 的对于不同物体的融合效果,或者创造性如何。

提示词:一个沙发,形状和梨很像

融合效果也不错,还是能大体看出来梨的形状的。

再来试试人物生成吧。

提示词:拍摄一个美丽、充满活力的(年轻:1.2)女人,(25:1.1)岁,在(电影:1.4)环境中,用(复杂:1.3)细节和(生动:1.2)颜色,以(杰作:1.5)绘画的风格,50毫米。电影,4k史诗般的细节,4k的史诗般的详细,在柯达拍摄的照片,详细的电影,hbo深色moody,35mm照片,颗粒,小插曲,复古,柯达彩色,Lomography,染色,高度详细,找到的镜头

大家自己看效果吧。

不过在某些情况下,基础模型的理解以及表现力比后两个模型的确要差点意思,毕竟人家模型小嘛,总是会牺牲一些质量的。

翻译成中文总感觉差点意思,就不翻译了。

提示词:cinematic photo a ghost,(by Kawacy:1.1),(by ahegao:1.3),Embrace the fragmented beauty of a mosaic break free from the face,bleeding with hints of mechanical wonder,Explore the eloquence of shattered body parts in an evocative artistic expression,8k,atmospheric,ecstasy of translucent musical notes,streaming musical notes visible,aesthetic,creative,surreal,beautiful,inspired,artistic,elegant,stylish,. 35mm photograph,film,bokeh,professional,4k,highly detailed,

基础模型在细节上的打磨还是差点意思,遗漏了一些细节,抽卡了很多次都出不来后边两张图的效果,感觉就是语义理解上有些问题。

不过大多数情况下,这三个模型的区别不是很大,当然如果配置够的话,建议大家使用 t5xxlfp8 的模型,和 t5xxlfp16 的语义理解以及出图效果都有的一拼,主要是省了 4G 显存。

好了,今天的分享就到这里了,感兴趣的小伙伴快去试试吧!

 最后想说

AIGC(AI Generated Content)技术,即人工智能生成内容的技术,具有非常广阔的发展前景。随着技术的不断进步,AIGC的应用范围和影响力都将显著扩大。以下是一些关于AIGC技术发展前景的预测和展望:

1、AIGC技术将使得内容创造过程更加自动化,包括文章、报告、音乐、艺术作品等。这将极大地提高内容生产的效率,降低成本。2、在游戏、电影和虚拟现实等领域,AIGC技术将能够创造更加丰富和沉浸式的体验,推动娱乐产业的创新。3、AIGC技术可以帮助设计师和创意工作者快速生成和迭代设计理念,提高创意过程的效率。

未来,AIGC技术将持续提升,同时也将与人工智能技术深度融合,在更多领域得到广泛应用。感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程。

对于从来没有接触过AI绘画的同学,我已经帮你们准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

AIGC学习必备工具和学习步骤

工具都帮大家整理好了,安装就可直接上手

现在AI绘画还是发展初期,大家都在摸索前进。

但新事物就意味着新机会,我们普通人要做的就是抢先进场,先学会技能,这样当真正的机会来了,你才能抓得住。

如果你对AI绘画感兴趣,我可以分享我在学习过程中收集的各种教程和资料。

学完后,可以毫无问题地应对市场上绝大部分的需求。

这份AI绘画资料包整理了Stable Diffusion入门学习思维导图、Stable Diffusion安装包、120000+提示词库,800+骨骼姿势图,Stable Diffusion学习书籍手册、AI绘画视频教程、AIGC实战等等。

【Stable Diffusion安装包(含常用插件、模型)】

img

【AI绘画12000+提示词库】

img

【AI绘画800+骨骼姿势图】

img

【AI绘画视频合集】

img

还有一些已经总结好的学习笔记,可以学到不一样的思路。

实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

<think>好的,我现在需要帮助用户了解“sd3_medium.safetensors”文件的类型用途。首先,我应该仔细看看用户提供的引用内容,特别是引用[1]引用[2],因为这些直接提到了这个文件。 用户的问题是关于这个文件的类型用途。类型方面,引用[2]里提到,sd3_medium.safetensors是一个4.3G的独立主模型,不包含文本编码器。而其他版本的文件包含不同的编码器,比如clipt5xxl的不同版本。这说明这个文件属于机器学习模型文件,具体是Stable Diffusion 3 Medium的主模型。 用途方面,引用[1]引用[4]提到这个模型用于图像生成,用户需要通过ComfyUI等工具进行推理。主模型负责图像生成的核心部分,而其他版本可能整合了不同的编码器来处理文本输入。用户可能需要根据需求选择是否包含文本编码器,比如如果已经有其他编码器,可能只需要主模型。 另外,引用[4]还提到了安全措施,虽然这可能文件类型用途关联不大,但可以提到模型的安全性设计,作为补充信息。 需要确保回答结构清晰,分点说明类型用途。然后生成相关问题,比如不同版本的区别、如选择、加载方法等。同时要注意使用中文,并正确引用提供的资料中的信息,比如引用[1]、[2]、[4]中的内容。</think>### sd3_medium.safetensors文件的类型与用途 #### 1. 文件类型 - **机器学习模型文件**:`.safetensors`是一种专为机器学习模型设计的文件格式,由Hugging Face团队开发,采用序列化存储结构。相比传统的PyTorch `.bin`文件,其通过**去除非必要元数据****禁用任意代码执行**提升了安全性[^3]。 - **Stable Diffusion 3核心组件**:`sd3_medium.safetensors`(4.3GB)是Stable Diffusion 3 Medium的**独立主模型**,不包含文本编码器(如CLIP、T5等),仅包含扩散模型的核心参数[^2]。 #### 2. 核心用途 - **图像生成主干网络**:作为图像生成流程的核心组件,负责从文本描述到像素级图像数据的**扩散过程计算**。需配合文本编码器(如CLIP或T5)才能完成端到端的文生图任务[^4]。 - **模块化部署优势**:独立主模型设计允许开发者灵活组合其他组件。例如: - 已有CLIP模型时可直接复用 - 需要升级文本编码器时可单独替换 - 减少冗余加载提升效率(相比整合包节省40%内存)[^2] #### 3. 配套文件说明 | 文件名 | 大小 | 包含组件 | 使用场景 | |--------|------|----------|----------| | `sd3_medium.safetensors` | 4.3G | 主模型 | 已有编码器环境 | | `...incl_clips.safetensors` | 5.97G | 主模型+CLIP | 快速启动基础文生图 | | `...t5xxlfp8.safetensors` | 10.9G | 主模型+CLIP+T5 FP8 | 高质量多模态生成 | | `...t5xxlfp16.safetensors` | 15.8G | 主模型+CLIP+T5 FP16 | 最高精度生成 | #### 4. 典型工作流示例 ```python # ComfyUI中的典型加载流程(引用[1]修改后的配置) from comfy.sd import load_checkpoint model = load_checkpoint("sd3_medium.safetensors") # 主模型 clip = load_checkpoint("clip_l.safetensors") # 文本编码器 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值