大幅提升DiT模型生成速度，降低扩散模型显存开销，无问芯穹与清华、交大、微软联合团队提出ViDiT-Q与MixDQ-CSDN博客

本文链接：https://blog.csdn.net/2401_87329534/article/details/142330609

DiT（Diffusion Transformer) 架构模型因其优良的效果，正受到越来越多关注。一系列基于DiT架构的模型在文生图（PixArt-alpha, PixArt-Sigma, Hunyuan-DiT），与文生视频 (Sora, Vidu, OpenSora) 任务上展现了出色的生成能力。然而由于扩散模型巨大的参数规模和循环迭代式的推理特点，其运行的硬件资源消耗十分巨大，加之视频生成需要同时生成多帧图像，进一步增加了模型的硬件开销，对其实际应用带来了巨大挑战。

近期，无问芯穹联合清华大学、微软和上海交通大学研究团队发布了两项科研成果，分别介绍面向Diffusion Transformer (DiTs)的后训练量化(PTQ)方法（ViDiT-Q），以及面向少步扩散模型的混合比特量化方案（MixDQ），后者已收录于ECCV 2024。现将有关内容整理成文，并为感兴趣的读者提供论文获取渠道。

ViDiT-Q：针对以扩散变换器（Diffusion Transformer）为基础的视觉生成模型提出的后训练量化(PTQ)方法。在生成质量基本无损的前提下，ViDiT-Q能够获得2~3倍的显存优化，与约1.5倍的延迟优化。

MixDQ：针对少步扩散模型提出混合比特自动化设计，是首次实现了少步数生成模型量化实际显存与延迟优化的方案。可以在几乎无损的情况下实现W5A8的量化，获得约3.4倍显存优化，与1.5倍延迟优化。

ViDiT-Q: DiT视觉生成模型优质量化方法

对现有Diffusion量化方案在处理DiT模型量化时的独特问题进行了分析，概括出DiT模型量化的若干关键挑战，并针对这些挑战提出对应的解决方案，设计