transformers quantization bitsandbytes实时量化方法使用load_in_4bit，load_in_8bit；量化模型保存及加载使用

loong_XL

已于 2024-08-28 17:27:41 修改

阅读量107

点赞数 5

分类专栏：深度学习大模型AI 文章标签：量化大模型 ai llm

于 2024-08-28 17:10:48 首次发布

本文链接：https://blog.csdn.net/weixin_42357472/article/details/141644591

版权

深度学习同时被 2 个专栏收录

261 篇文章 119 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大模型AI

41 篇文章 1 订阅

订阅专栏

参考：
https://huggingface.co/docs/transformers/main/en/quantization/bitsandbytes?bnb=8-bit
https://www.atyun.com/57101.html
https://huggingface.co/blog/4bit-transformers-bitsandbytes

bitsandbytes错误参考：
https://cnloong.blog.csdn.net/article/details/141607933

代码

使用qwen2-7b

1）load_in_4bit

from transformers import AutoTokenizer,AutoModelForCausalLM,BitsAndBytesConfig

quantization_config = BitsAndB

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

loong_XL

关注关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
transformers quantization bitsandbytes实时量化方法使用load_in_4bit，load_in_8bit；量化模型保存及加载使用

参考：https://huggingface.co/docs/transformers/main/en/quantization/bitsandbytes?bnb=8-bithttps://www.atyun.com/57101.htmlhttps://huggingface.co/blog/4bit-transformers-bitsandbytesbitsandbytes错误参考：https://cnloong.blog.csdn.net/article/details/141607933使用q
复制链接

扫一扫