图像生成新篇章：Stable Diffusion 3 Medium开源评析

最新推荐文章于 2024-06-15 09:04:13 发布

AI记忆

最新推荐文章于 2024-06-15 09:04:13 发布

阅读量3.7k

点赞数 29

分类专栏：深度学习论文与相关应用文章标签： AIGC stable diffusion 人工智能文生图 SD3 SD3-medium

本文链接：https://blog.csdn.net/sunbaigui/article/details/139657666

版权

深度学习论文与相关应用专栏收录该内容

100 篇文章 226 订阅

订阅专栏

摘要

在数字艺术与人工智能的交汇点上，Stable Diffusion 3（SD3）的开源无疑是一场技术革新的盛宴。就在3月份，我撰写了一篇博文，深入探讨了SD3的技术报告内容与介绍，文章发表在CSDN博客上，https://blog.csdn.net/sunbaigui/article/details/136898729。如今，随着SD3 Medium版本的开源，https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium，我们迎来了新的里程碑。在本文中，我将分享我对这一开源版本的初步体验，以及它对文生图开源社区所带来的影响。Stable Diffusion 3 Medium的开源是一个重要的技术里程碑，它不仅展示了AI在图像生成领域的最新进展，也为未来的艺术创作和技术开发提供了丰富的土壤。虽然仍有挑战需要克服，但我相信，通过社区的共同努力和不断的技术创新，我们将能够解锁更多的创造潜力，开拓数字艺术的新境界。

体验与分析

为了确保体验的一致性和可复现性，我在所有样例中使用了相同的随机数种子——"888888888"。这一决定让我能够更准确地评估SD3 Medium的性能，并与其他用户的结果进行比较。

图像文字与背景的突破

SD3 Medium在图像文字和背景生成方面取得了显著的进步。它能够更好地理解和执行复杂的文本提示，生成的图像在视觉美学、提示遵循和排版方面都有了显著提升。这不仅推动了整个社区在图像生成技术上的发展，也为未来的艺术创作提供了更多可能性。

前景主体及其交互动作的挑战

尽管在图像文字和背景上取得了成功，SD3 Medium在前景物体、尤其是人物与物体的交互方面仍有提升空间。在一些生成的图像中，前景主体细节部分往往容易出错，尤其是躯干/手指等，另外物体间的交互动作也需进一步优化。这些挑战提示我们，尽管技术取得了巨大进步，但在实现高度逼真的图像生成方面，仍需不断地研究和提升。

样例1：

An astronaut riding a green horse

首先我们先看下官方样例结果：

在这个官方样例效果还不错，不过如果放开随机种子，多生成几次的话，局部细节不良率比较高。

样例2：

The elderly person sits on a wrought-iron chair, holding a glass of wine, facing the sea where spring is warm and flowers are blooming, at a seaside holiday home, with flowers and the sea around, savoring the fine wine while looking towards the coast.

再让我们看几个自定义文本输入的结果，纯中文的结果较差，我们通过kimi做一道英文翻译，再将相应英文描述输入到stable-diffusion-3-medium中，看相应结果：

老人的手部和腿部都有一些问题，词意理解的比较到位，图像中的背景生成细节丰富。

样例3：

Create a poster with the "FaceChain" inscription at the center, and a Chinese dragon soaring through clouds and mist above it.

这里龙的局部包括龙头、龙翼、龙爪都有些个数与展示的不合理。但这边对FaceChain字样在图中的标识值得点赞，跟原技术报告中强调较强的图中文字嵌入能力是一致的，另外图中背景也理解到位。

样例4：

Spider-Man is engaged in a fierce battle with a Transformer, set against the backdrop of the Amazon rainforest. Spider-Man fires a web from his hand, which ensnares the Transformer's head, causing the mighty robot to be seated firmly on the ground.

这里意思没理解正确，如果放开随机种子多试几次会发现前景的交互细节有很多错误，但这里的图中背景也依然很好。

AI记忆

关注

29
点赞
踩
33

收藏

觉得还不错? 一键收藏
打赏
5
评论
图像生成新篇章：Stable Diffusion 3 Medium开源评析

在数字艺术与AI的交汇处，Stable Diffusion 3（SD3）Medium版本的开源标志着技术革新的新篇章。继3月份我在CSDN上发表的SD3技术博文后，这一新里程碑的实现，展示了AI在图像生成领域的显著进步。通过Hugging Face平台的开源，SD3 Medium不仅为艺术创作提供了新土壤，也推动了文生图社区的发展。尽管存在挑战，社区的协作和技术创新将不断解锁创造潜力，引领我们进入数字艺术的新纪元。
复制链接

扫一扫