人体绘制大翻车！“最先进”文生图开源模型 SD 3 Medium 究竟怎么了？

AI科技大本营

已于 2024-06-14 09:06:48 修改

阅读量7.1k

点赞数 15

文章标签： stable diffusion

于 2024-06-13 20:03:21 首次发布

本文链接：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/139667836

版权

整理 | 梦依丹

出品丨AI 科技大本营（ID：rgznai100）

在经历 CEO 被迫下台、核心研发团队成员离职等风波后，在文生图领域享受盛名的 AI 独角兽公司 Stability AI 如约开源 Stable Diffusion 3 Medium，并号称这是迄今为止最先进且最新的文本图像开源生成模型。

Hugging Face 地址：

https://huggingface.co/stabilityai/stable-diffusion-3-medium

官网放出了一段效果视频，先赏为尽：

新推出的 Stable Diffusion Medium 旨在成为一款体积更小、功能强大的模型，能够在消费级 GPU 上流畅运行。目前该模型已授权非商业用途下载体验。API 体验地址：

https://platform.stability.ai/

性能提升显著，SD 3 Medium 亮点一览

据官博介绍，SD3 Medium 是一款具备 20 亿参数的 MMDiT 图像模型，其在图像质量、字体处理、复杂指令理解及资源效率等方面实现了显著的性能飞跃，其背后功臣则是 Diffusion Transformer 架构。其中与英伟达合作的 TensorRT 优化版性能直接提升了 50%。

为此，官网还列出了 SD 3 Medium 的诸多亮点：

整体质量和照片级真实感：生成的图像细节丰富、色彩饱满、光影自然，既能实现逼真的照片级输出，也能适应多种风格的高质量创作。通过诸如 16 通道变分自编码器（VAE）等创新技术，该模型成功规避了其他模型常见的缺陷，比如在渲染手部和面部时的不真实感，从而提升了这些部位的表现力和真实度；
提示词理解能力：能深入理解包含空间推理、构成元素、动作及风格等复杂要素的长指令。用户可通过全部三个文本编码器的组合使用，在性能与效率之间做出灵活取舍；
文字呈现：借助 Stability AI 的扩散变换器架构，实现了前所未有的文字质量，大幅减少了拼写错误、字距调整、字母形态和间距问题；
资源高效：较低的 VRAM 占用，即便是在标准消费级 GPU 上运行，也能保持高性能，无性能衰减之忧；
精细调校：即使面对小型数据集，也能精准吸收其中的细微特色，非常适合个性化定制。

同时，Stability 与英伟达和 AMD 开展合作。利用英伟达 RTX GPU 以及 TensorRT 增强全体 Stable Diffusion 模型（包括 SD3 Medium）的性能，TensorRT 优化版本更可提供 50% 的一流性能提升；AMD 已针对各类 AMD 设备（包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU）优化了 SD3 Medium 的推理性能。

效果不错？人体绘制大翻车！

期待之下，不少用户及时测评了新模型的图片生成效果。

樱花少女，甜美可爱。

3D猫猫，萌感得让人想rua。

同时，日语用户还在感叹 SD 3 Medium 对非英语的提示词的输入识别理解及对应生成能力。

等等，事情并没有这么简单。

到了现实场景的人像生成时，各种诡异的现象发生了……

SD3 Medium 在人体图像生成能力上翻车了！

不少网友也晒出了更多翻车图片：

使用 Stable Diffusion 3 生成的躺在草地上的女孩的 AI 图像

使用 Stable Diffusion 3 Medium 生成的 AI 图像

根据实测表现，用户对该款模型的发布并未给到多少赞誉，反而是嘲笑的成分更多些：这款号称最先进的图像合成模型，却在人像生成及人体部位绘制上比 Midjourney 或 DALL-E 3 的效果更差，着实令人大跌眼镜。

简直就是对上述官网列出的亮点第一条的大型打脸现场！各种匪夷所思的“鬼胎”生成，让网友直呼：太阴间！

在 Reddit 上，一篇名为“这个版本是个笑话吗？”的帖子详细描述了 SD3 Medium 在渲染人类特别是四肢（如手和脚）方面的失败。用户直接吐槽道：“StableDiffusion 与 Midjourney 的竞争时间并不长，现在它看起来简直像个笑话。唯一能拿出来说说的，就只有数据集安全和符合道德原则了！”

问题就出在道德准则

Stability 强调安全、负责任的 AI 实践原则，并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。该公司表示，安全自模型训练之时起，贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试，同时制定并实施了多项保护措施以防止危害发生。

然而，这样严苛的道德准则，也会影响训练图片中的过滤机制。

“分享一条冷知识，对模型的严格审查也会过滤掉人体解剖素材，于是……就变成现在这样了。”一位 Reddit 用户如是说。

AI 图像爱好者们目前将 SD3 的人体绘制问题，归咎于 Stability 坚持从 SD3 的训练数据中过滤掉成人内容，即所谓「不适合工作时间观看」的内容，简称 NSFW，图像生成质量因此有所下降。

每当用户的提示词表达了 AI 模型未能在训练数据集中充分接触过的概念，图像合成模型就会开始自行编造，扭曲诡异的图像也由此产生。

此前，类似情况也有发生。

2022 年发布的 Stable Diffusion 2.0 在描绘人体方面也出现过类似的问题。当时，AI 研究人员很快发现，筛除包含裸露内容的成人素材很可能会严重妨碍 AI 模型准确生成人体解剖结构的能力。随后发布的 SD 2.1 和 SD XL 成功扭转了局面，恢复了一部分因严格过滤 NSFW 内容而失去的绘图能力。

模型预训练期间可能出现的另一个问题，是研究人员设计的 NSFW 过滤器在删除数据集中成人图像时可能过于挑剔，意外排除了那些并不存在冒犯性的内容，这就导致模型偶尔无法准确描绘人体。一位 Reddit 用户在帖子中写道，“只要图片不涉及人物，SD3 的工作就一切正常。所以我认为是他们用于过滤训练数据的 NSFW 过滤器敏感度过高，把所有人类图像都划入了 NSFW 范畴。”

而这次，问题再次发生。

太讲武德的开发及训练规则，让大模型难以窥其全貌，于是幻觉产生，“鬼胎”诞生。道德准则也许不应前置在大模型学习阶段，而应在输出阶段严加把控。

应该坚持怎样的道德准则，如何设置道德规则以至于让大模型更好地服务人类，此次 SD3 Medium 发布及人体绘制的再次翻车更说明了其重要性。

参考链接：

https://thenextweb.com/news/stability-ai-launches-stable-diffusion-3-image-generator

https://stability.ai/news/stable-diffusion-3-medium

https://mp.weixin.qq.com/s/3ynUfre02C1Lz5jEfI62Rw

AI科技大本营

关注

15
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
人体绘制大翻车！“最先进”文生图开源模型 SD 3 Medium 究竟怎么了？

整理 | 梦依丹出品丨AI 科技大本营（ID：rgznai100）在经历 CEO 被迫下台、核心研发团队成员离职等风波后，在文生图领域享受盛名的 AI 独角兽公司 Stability AI 如约开源 Stable Diffusion 3 Medium，并号称这是迄今为止最先进且最新的文本图像开源生成模型。Hugging Face 地址：https://huggingface.co/stabili...
复制链接

扫一扫