4月17日,在Stable Diffusion 3技术报告发布几个月后,Stability AI终于正式发布Stable Diffusion 3 API。
虽然完全开源的SD3模型还没发布,但已经可以在 Fireworks AI 访问 Stable Diffusion 3的API:
https://fireworks.ai/models/stability/sd3
根据人类偏好评估,Stable Diffusion 3在印刷品质和提示词遵从度方面与目前最先进的系统如DALL-E 3和Midjourney v6相当或更优。这意味着生成的图像质量更高,更贴合用户的文本描述。
Stable Diffusion 3采用了新的多模态扩散转换器(MMDiT)架构, 这个构架的核心,采用的是和Sora一样的Diffusion Transformer技术, 并结合了流体动力学匹配(flow matching)及其他技术上的改进。使用单独的权重集合来处理图像和语言输入。
这种设计提高了模型的性能和生成质量,并能更精确地控制出现在图片中的文本内容: