Stable Diffusion模型运算量分析

最新推荐文章于 2025-03-21 10:38:28 发布

Mr_L_Y

最新推荐文章于 2025-03-21 10:38:28 发布

阅读量1w

点赞数 3

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luoyu510183/article/details/127695184

版权

本文分析了Stable Diffusion模型的计算量，主要包括TextEncoder、UNet2DCondition、VAE Encoder+Decoder。UNet2DCondition是图像生成的主要部分，参数量大，卷积和矩阵计算各占约一半运算量。VAE的Encoder和Decoder以卷积为主，运算量巨大。建议通过降低输出分辨率并结合超分辨率网络提高图像质量，而非直接增大模型分辨率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

准备

模型的参数量和计算量参考: ThanatosShinji/onnx-tool: ONNX model's shape inference and MACs(FLOPs) counting. (github.com)这四个模型就是Stable Diffusion 1.4 最主要的4个onnx模型:

github中的百度网盘可以下载带中间tensor shape的模型. 比如:

TextEncoder

这个模型很像BERT, 12 layers的Bert Base. 运算量6.7GMACs.

和 BertBase一样, 运算量98%都集中在MatMul上面.

这个token生成了1x77x768的hidden state需要送给UNetCondition.

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。