HuggingFace中模型量化

墨水兰亭

已于 2024-04-28 15:35:06 修改

阅读量899

点赞数 1

文章标签： llama

于 2024-04-28 15:07:17 首次发布

本文链接：https://blog.csdn.net/moshuilangting/article/details/138278390

版权

文章介绍了如何在24GB显存的GPU上解决大模型推理内存问题，通过使用Quanto库进行模型量化，以及利用HuggingFace的bfloat16分布式处理来降低内存消耗。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

安装库

加载7B的LLM在GPU上进行推理，我这24G的显存居然一次推理都执行不了，Out of Memory。

这里采用Quanto库进行对模型进行量化

quanto==0.1.0版本的库，需要torch版本>2.2.0, 建议先将torch进行升级

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118

然后安装

pip install quanto
pip install accelerate

transformers 版本 == 4.40.0

quanto==0.1.0

-----------------------------------------------------------------------------

quanto量化过程中需要gcc版本大于9.0.0（这个可以自己升级下）

----------------------------------------------------------------------------

量化

模型量化后，再执行生成文本

代码如下, 只用了不到13G的显存就能够完成推理。

from transformers import AutoTokenizer,AutoModelForCausalLM, QuantoConfig
impor

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

墨水兰亭

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AI学习指南HuggingFace篇-模型压缩与量化

俞兆鹏的博客

02-04

本文介绍了模型压缩和量化的概念及实现方法，包括剪枝和量化技术。通过这些方法，可以显著减少模型的大小和计算量，提升模型的存储和推理效率。Hugging Face提供了丰富的工具和库，支持模型压缩和量化，帮助开发者优化模型的性能[86希望本文能帮助读者掌握这些高级优化技巧，提升模型的性能和效率。

玩转大语言模型——ollama导入huggingface下载的模型

艾醒的博客

01-06

3305

ollama在大语言模型的应用中十分的方便，但是也存在一定的问题，比如不能使用自己微调的模型或者当前的模型并没有做ollama官网兼容的时候，从外部导入模型就十分必要。本章将会介绍两种常见格式模型导入ollama的方式。

参与评论您还未登录，请先登录后发表或查看评论

Hugging Face 量化部署指南

最新发布

人人可学，人人可用，IT与AI不是高不可攀！

03-25

1186

量化（Quantization）是加速模型推理、减少内存占用的关键技术，特别适用于边缘设备或低算力 GPU/CPU 服务器。本指南介绍 Hugging Face 量化部署的原理、方法、代码示例，帮助企业优化 AI 生产环境。

用通俗易懂的方式讲解大模型：LangChain Agent 原理解析

2301_78285120的博客

12-31

5527

在 LangChain 中，Agent 是一个代理，接收用户的输入，采取相应的行动然后返回行动的结果。Agent 可以看作是一个自带路由消费 Chains 的代理，基于 MRKL 和 ReAct 的基本原理，Agent 可以使用工具和自然语言处理问题。官方也提供了对应的 Agent，包括 OpenAI Functions Agent、Plan-and-execute Agent、Self Ask With Search 类 AutoGPT 的 Agent 等。

AGI 之【Hugging Face】的【Transformer模型优化】的 [利用量化技术使模型运算] / [ 基准测试量化模型 ] / [ONNX和ONNX Runtime ] 的简单整理

仙魁XAN

07-16

1138

AGI，即通用人工智能（Artificial General Intelligence），是一种具备人类智能水平的人工智能系统。它不仅能够执行特定的任务，而且能够理解、学习和应用知识于广泛的问题解决中，具有较高的自主性和适应性。AGI的能力包括但不限于自我学习、自我改进、自我调整，并能在没有人为干预的情况下解决各种复杂问题。AGI能做的事情非常广泛：跨领域任务执行：AGI能够处理多领域的任务，不受限于特定应用场景。自主学习与适应：AGI能够从经验中学习，并适应新环境和新情境。

量化HuggingFace的Transformers 模型

我的一些代码。。。

08-18

1684

量化 🤗 Transformers 模型

huggingface模型如何量化部署

02-09

为了减少推理过程中所需的计算资源并加速性能，在生产环境中部署前可以考虑对Hugging Face的Transformers库中的预训练模型实施量化技术。一种常见的做法是采用动态量化的策略，这允许将浮点权重转换成更低精度的数据...

基于HuggingFace开发的大语言模型训练

10-24

标题中的“基于HuggingFace开发的大语言模型训练”是指利用HuggingFace的Transformers库来构建和训练大规模的语言模型。HuggingFace是一个流行的开源平台，提供了丰富的自然语言处理（NLP）模型，包括预训练的...

Huggingface 模型转换成gguf并且量化

Harry的博客

08-10

2179

Llama.cpp 是一种在 CPU 和 GPU 上高效运行大型语言模型（LLM）的好方法。不过，它的缺点是需要将模型转换为 Llama.cpp 支持的格式，目前这种格式是 GGUF 文件格式。在这篇博文中，你将学习如何将 HuggingFace 的模型（llama2 7b chat）转换为 GGUF 模型。

探秘Hugging Face的`evaluate`: 量化NLP模型性能的理想工具

gitblog_00073的博客

04-25

590

探秘Hugging Face的evaluate: 量化NLP模型性能的理想工具项目地址:https://gitcode.com/gh_mirrors/ev/evaluate 在自然语言处理（NLP）领域，评估和比较模型的表现是至关重要的。Hugging Face团队创建了一个名为evaluate的Python库，旨在简化这一过程。本篇文章将带您深入了解这个项目的背景、技术特性，并阐述其在NLP实...

探索Intel扩展中的Weight-Only量化：提升Hugging Face模型性能

ahdfwcevnhrtds的博客

09-20

496

Weight-Only量化是一种将神经网络模型权重进行压缩的技术，仅保留最重要的信息部分。这不仅减少了存储需求，也提高了推理速度。Weight-Only量化技术为模型优化提供了一条途径，特别是对于资源受限的设备。建议感兴趣的读者进一步阅读Intel扩展的官方文档，以及Hugging Face Model Hub的使用案例。

[译文]Faster and smaller quantized NLP with Hugging Face and ONNX Runtime

choose_c的博客

04-28

665

量化和蒸馏是处理这些尺寸和性能挑战的两种常用技术。这些技术是互补的，可以一起使用。在之前的一篇HuggingFace的博文中讲到了蒸馏。这里我们讨论量化，它可以很容易地应用于您的模型，而无需再训练。这项工作建立在我们之前分享的ONNX Runtime优化推理的基础上，可以为您提供额外的性能提升，以及在客户端设备上解除阻塞推理。

HuggingFace团队亲授大模型量化基础: Quantization Fundamentals with Hugging Face

阿正的梦工坊

06-08

1601

Quantization techniques

探索Intel Weight-Only量化：提升Hugging Face模型运行效率

ahdfwcevnhrtds的博客

10-06

537

Weight-Only量化提供了一种有效提升模型推理效率的方法，特别适合在资源有限的设备上运行。Hugging Face Transformers文档。

【transformer模型】三行查看huggingface加载的transformer模型的大小

yiyangtien的博客

02-26

1782

想知道这个模型有多大，怎么办呢？可以通过参数量估算。

HuggingFace又出炼丹神器！稀疏矩阵运算进入平民化时代！

夕小瑶科技说

09-30

511

文 | rumor酱编 | YY一提到模型加速，大家首先想到的就是蒸馏、（结构性）剪枝、量化（FP16），然而稀疏矩阵（sparse matrix）运算一直不被大家青睐。原因也很简单，一...

轻松学会HuggingFace模型下载与保存