可能是最强文生图工具:Stable Diffusion 3 超详细测试

本文对比了StableDiffusion3和MidjourneyV6在不同场景下的表现,强调了StableDiffusion3在理解提示词、英文处理和品牌图标呈现方面的优势,但人体细节和审美上稍逊于Midjourney。作者认为StableDiffusion3有巨大潜力,尤其是在本地部署和开放原则的支持下。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文末扫🐎免费获取资源

最近文生图领域最重要的消息,就是Stable Diffusion 3的推出。

目前,有两种使用Stable Diffusion 3的方法,一种是通过API调用,这需要在Stability AI开发者平台申请API Keys:

Stability AI开发者平台

在Google Colab上调用API进行绘图

另一种方法,是使用Stable Assistant聊天机器人(需申请),类似在ChatGPT里使用DALLE3:

通过Stable Assistant使用SD3

总之,目前两种方式都需要付费,10美元1000点数,只能画不到200张图,并不便宜。

那到底效果如何,今天就和Midjourney(V6)作一番详细对比:


**
1.**

美丽的魔女,黑色长发,穿着黑色高领套头衫和黑色瑜伽裤,在一个神奇的智能企鹅文明祭坛旁摆姿势,雕像,动画艺术风格,魔鬼核心,超现实插画,32k uhd,龙的艺术,燃烧的哥特式背景,超现实的人物。
Beautiful demoness with long black hair, dressed in a black turtleneck jumper and black yoga pants, posing next to a magic Intelligent Penguin Civilization altar, a statue, in the style of anime art, devil-core, hyper-realistic illustrations, 32k uhd, dragon art, flaming gothic background, hyper-realistic characters.

Stable Diffusion 3

Midjourney V6

两款工具的画风都比较精致,但MJ6没能体现“魔女”,SD3则加入了眼睛异色、头上长角的元素。


2.

狮子肖像,黑白,逼真
lion portrait, black and white, photorealistic

Stable Diffusion 3

Midjourney V6

两款工具表现都很好,好到简直像是以同一只狮子的照片训练的。


3.

贴纸设计的武士宫本武藏,他与樱花树站在一起,平静,安详,极简的线条插图,黑色的灰色和橙色,白色的背景
sticker design of samurai Miyamoto Musashi, he is standing with cherry blossoms tree, he is standing calm, serene, minimalistic line illustration, black gray and orange colors, white background

Stable Diffusion 3

Midjourney V6

相比之下,MJ6更符合“极简”的要求。


4.

一堆垃圾,高得像一座山,活着的人类演员从里面伸出来,人类垃圾超写实,色彩鲜艳,现代,白色背景
pile of garbage, very tall like a mountain, alive human comedians sticking out of it, ala human garbage ultra realistic, colorful, modern, white background

Stable Diffusion 3

Midjourney V6

各有所长,但MJ6在人物的细节上面表现更好。


5.

泰伦斯·马利克拍摄的现代电影,当代在热气球上野餐和西蒙妮·吉尔兹吃糖果的场景
Cinematic film still of modern contemporary picnic in a hot air balloon and a simone giertz eating a candy bar by terrence malik

Stable Diffusion 3

Midjourney V6

提示词包含具体的导演风格和演员形象,两款工具不相伯仲,但对于表现“吃东西”都有点困难。


**6.
**
Stable Diffusion 3

Midjourney V6

个人感觉都差不多,但MJ6的工人是白人,SD3的工人是黑人?


7.

动作科幻电影中女主角的电影广角镜头,控制论增强,运动身体,未来主义,戏剧性的姿势,大胆的灯光,景深,引人注目的视觉效果
cinematic wide shot of a lead heroine in an action packed sci fi movie with cybernetic enhancements, athletic body, futuristic, dramatic pose, bold lighting, depth of field, striking visual effects

Stable Diffusion

<think>嗯,用户想了解Stable Diffusion文生的技巧。我需要先回忆一下相关的知识,确保信息准确。首先,Stable Diffusion是一种基于深度学习的文本到像生成模型,对吧?它通过扩散过程逐步去噪生成像。用户可能已经知道基本概念,但需要具体的技巧来提升生成效果。 接下来,得考虑用户的使用场景。可能是设计师、艺术家,或者普通用户想生成高质量片。他们可能遇到问题,比如生成的片不符合预期,细节不够,或者风格不统一。需要针对这些常见问题提供解决方法。 用户的需求是技巧,所以应该分步骤,结构清晰。可能需要包括提示词优化、参数调整、模型选择等方面。还要注意使用中文,避免专业术语过多,必要时解释术语。 第一个技巧可能是提示词设计,详细和具体的关键词。比如使用逗号分隔,组合不同元素。还有负面提示词的应用,排除不需要的内容。这部分很重要,因为提示词直接影响生成结果。 第二个可能是参数调整,比如采样步骤、CFG值、种子数。需要解释每个参数的作用和调整建议。比如CFG值过高可能导致过饱和,过低则偏离文本描述。 第三是模型和LoRA的使用,不同的预训练模型影响风格,LoRA可以微调特定特征。用户可能不知道这些资源,需要举例说明,比如现实风格或动漫风格的模型。 第四是迭代优化,可能需要多次生成,调整提示词和参数,或者使用后期处理工具。用户可能希望一次成功,但实际需要多次尝试。 第五是控制生成细节,使用附加控制网络,如边缘检测或深度。这部分可能对高级用户更有用,但简单提及可以帮他们了解可能性。 最后,注意事项,比如版权和计算资源。用户可能忽略这些,需要提醒。 需要检查结构是否清晰,分点列出,每个技巧有解释和例子。使用Markdown格式,但用户要求避免使用,所以用文字描述。确保LaTeX公式正确,但问题中可能不需要数学公式,不过系统指令里提到,如果有变量或方程的话要处理,但这里可能不涉及,所以可能不需要。 还要注意使用中文,保持口语化,避免生硬。可能需要举例说明,比如提示词组合,负面词的应用,参数设置的具体数值建议。 总结下来,组织成几个主要部分,每个部分有子点,逐步引导用户优化生成结果。确保信息准确,比如CFG值的范围,采样步骤的影响,这些都是关键点。最后提醒伦理和法律问题,确保回答全面可靠。</think>以下为Stable Diffusion文生的进阶技巧总结,采用分步式框架帮助您提升生成效果: 一、**提示词工程(Prompt Engineering)** 1. **关键词组合术** - 采用「主体+环境+风格+细节+画质」结构,例如: ```宇航员(主体) 站在发光水晶森林中(环境) 赛博朋克插画风格(风格) 8k细节(细节) Unreal Engine渲染(画质)``` - 使用权重符号`(word:1.5)`调节重点,如`(银河:1.3)背景` 2. **负面提示词应用** ```text 低分辨率, 模糊, 畸形手指, 比例失调, 水印, 文字 ``` 可叠加艺术风格负面词,如`避免印象派笔触`等 二、**参数调优指南** 1. **采样器选择** - 写实类推荐:DDIM/DPM++ 2M Karras - 艺术类推荐:Euler a/Heun - 试验步数范围:20-50步(过低导致细节缺失,过高可能过拟合) 2. **CFG Scale调节** - 常规范围:7-12 - 高创意需求:5-7(增强模型自由度) - 精准控制:12-15(需配合高质量提示词) 三、**模型协同策略** 1. **基础模型选择** - 真实系:Realistic Vision/Protogen - 动漫系:Waifu Diffusion/Anything V5 - 实验性:SDXL 1.0(需更高显存) 2. **LoRA微调技巧** - 权重叠加公式:`<lora:filename:0.8>` - 组合使用多个LoRA时,总权重建议≤1.5 四、**控制网络进阶** 1. **深度控制** ```text 通过Depth-to-Image模块实现: 1. 输入草3D场景 2. 设置深度阈值0.3-0.7 3. 与提示词联合调节空间层次 ``` 2. **色彩约束** - 使用调色板插件限定主色 - HEX代码控制:`#FF5733作为主色调` 五、**迭代优化流程** 1. 首轮生成使用512x512分辨率测试 2. 通过img2img进行局部重绘(遮罩笔刷调节) 3. 最终输出采用Hires.fix提升至1024x1024+ - 推荐超分模型:SwinIR/ESRGAN 六、**特殊场景处理** 1. **人物生成要点** - 添加`完美解剖结构`类提示词 - 使用ADetailer插件自动修复面部 2. **多主体控制** ```text 采用组合语法: [猫|狗]在草地上,使用BREAK分隔 配合Regional Prompter分区控制 ``` 注意事项: - 显存不足时启用`--medvram`参数 - 批量生成建议使用X/Y/Z表对比参数 - 商业用途需确认模型授权协议 通过上述技巧的组合运用,可显著提升像质量与控制精度。建议从基础参数开始逐步实验,建立个人工作流模板。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值