7. Flux量化版本使用和下载

1. 量化介绍

大模型量化是一种减少机器学习模型存储和计算需求的技术。模型的大小由其参数量及其精度决定,精度通常为float32(FP32)、float16(FP16)或bfloat16(BF16)。在训练的时候,为了保证精度会用较高的精度如FP32,推理的时候FP16权重通常能够达到与FP32相似的精度,故可以通过量化技术将模型中的浮点数权重和激活值转换更低精度的表示。

2.Flux三类量化模型 FP、GGUF、NF4

2.1 FP

请添加图片描述
最直接的量化方式,通过降低参数精度的方式减少模型体积。在Huggingface上可以搜到较多的结果。但是这种方式过低的精度会导致较差的结果,而FP8也需要16G左右的显存空间。所以本文不过多介绍FP相关的内容,如有需要模型可私聊下载。
请添加图片描述
请添加图片描述

2.2 GGUF

请添加图片描述
目前使用最广泛的方式,由City96大佬在Huggingface上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值