本文是LLM系列文章,针对《1.58-bit FLUX》的翻译。
摘要
我们提出了1.58位FLUX,这是使用1.58位权重(即{-1,0,+1}),同时保持生成1024×1024图像的可比性能。值得注意的是,我们的量化方法在不访问图像数据的情况下运行,完全依赖于FLUX.1-dev模型的自我监督。此外,我们开发了一个针对1.58位操作进行优化的自定义内核,实现了模型存储的7.7倍减少,推理内存的5.1倍减少,以及推理延迟的改善。对GenEval和T2I Compbench基准的广泛评估表明,1.58位FLUX在保持发电质量的同时显著提高了计算效率。
1 引言
2 相关工作
3 实验结果
4 结论和讨论
这项工作引入了1.58位FLUX,其中99.5%的transformer参数被量化为1.58位。使用我们的自定义计算内核,1.58位FLUX实现了模型存储的7.7倍减少和推理内存使用的5.1倍以上减少。尽管有这些压缩增益,1.58位FLUX在T2I基准测试中表现出了相当的性能,并保持了较高的视觉质量。我们希望1.58位FLUX能够激励社区为移动设备开发更强