“DiT和Flux”与“Stable Diffusion”两种不同的生成模型范式

最新推荐文章于 2025-05-16 13:24:15 发布

不当菜鸡的程序媛

最新推荐文章于 2025-05-16 13:24:15 发布

阅读量318

点赞数 7

分类专栏：学习记录文章标签： stable diffusion

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vivi_cin/article/details/147980476

版权

学习记录专栏收录该内容

143 篇文章

订阅专栏

模型架构

Stable Diffusion：基于U-Net架构，由变分自编码器（VAE）、U-Net和文本编码器组成。U-Net在去噪过程中对数据进行压缩和放大，可能会导致部分数据丢失。
DiT和Flux：采用Diffusion Transformer架构，将U-Net替换为Transformer。Transformer通过旋转位置编码（RoPE）对位置信息进行编码，并应用多模态注意力机制（MMA），避免了数据压缩和放大过程中的丢失。

生成机制

Stable Diffusion：通过逐步添加噪声到初始输入信息中，模拟信息的扩散过程，再通过多次迭代逐渐去除噪声，最终得到清晰、准确的生成结果。
DiT和Flux：利用Transformer处理离散化的潜在表示，包括图像令牌和文本令牌，通过旋转位置编码对位置信息进行编码，然后应用多模态注意力机制进行去噪。

性能表现

Stable Diffusion：在生成质量和多样性上表现良好，但在细节处理和连贯性上可能稍逊一筹。
DiT和Flux：在细节处理和连贯性上表现更优，生成的图像质量更高，且在提示词遵循能力上更强。

不当菜鸡的程序媛

博客等级

码龄8年

361
原创

1420
点赞

1564
收藏

1333
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

论文阅读Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Con
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读HARIVO: Harnessing Text-to-Image Models for Video Generation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。