1. 量化介绍
大模型量化是一种减少机器学习模型存储和计算需求的技术。模型的大小由其参数量及其精度决定,精度通常为float32(FP32)、float16(FP16)或bfloat16(BF16)。在训练的时候,为了保证精度会用较高的精度如FP32,推理的时候FP16权重通常能够达到与FP32相似的精度,故可以通过量化技术将模型中的浮点数权重和激活值转换更低精度的表示。
2.Flux三类量化模型 FP、GGUF、NF4
2.1 FP
最直接的量化方式,通过降低参数精度的方式减少模型体积。在Huggingface上可以搜到较多的结果。但是这种方式过低的精度会导致较差的结果,而FP8也需要16G左右的显存空间。所以本文不过多介绍FP相关的内容,如有需要模型可私聊下载。
2.2 GGUF
目前使用最广泛的方式,由City96大佬在Huggingface上