DiT(Diffusion Transformer) 架构模型因其优良的效果,正受到越来越多关注。一系列基于DiT架构的模型在文生图(PixArt-alpha, PixArt-Sigma, Hunyuan-DiT),与文生视频 (Sora, Vidu, OpenSora) 任务上展现了出色的生成能力。然而由于扩散模型巨大的参数规模和循环迭代式的推理特点,其运行的硬件资源消耗十分巨大,加之视频生成需要同时生成多帧图像,进一步增加了模型的硬件开销,对其实际应用带来了巨大挑战。
近期,无问芯穹联合清华大学、微软和上海交通大学研究团队发布了两项科研成果,分别介绍面向Diffusion Transformer (DiTs)的后训练量化(PTQ)方法(ViDiT-Q),以及面向少步扩散模型的混合比特量化方案(MixDQ),后者已收录于ECCV 2024。现将有关内容整理成文,并为感兴趣的读者提供论文获取渠道。
ViDiT-Q:针对以扩散变换器(Diffusion Transformer)为基础的视觉生成模型提出的后训练量化(PTQ)方法。在生成质量基本无损的前提下,ViDiT-Q能够获得2~3倍的显存优化,与约1.5倍的延迟优化。
MixDQ:针对少步扩散模型提出混合比特自动化设计,是首次实现了少步数生成模型量化实际显存与延迟优化的方案。可以在几乎无损的情况下实现W5A8的量化,获得约3.4倍显存优化,与1.5倍延迟优化。
ViDiT-Q: DiT视觉生成模型优质量化方法
-
对现有Diffusion量化方案在处理DiT模型量化时的独特问题进行了分析,概括出DiT模型量化的若干关键挑战,并针对这些挑战提出对应的解决方案,设计