AWQ量化(Activation-aware Weight Quantization)

论文:

AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration

中文解读:

深入理解AWQ量化技术 - 知乎 (zhihu.com)

动机:端侧设备用LLM,为了减少显存占用量,所以要用INT4量化;

实现:只量化W矩阵,存储INT4计算的时候再反量化为FP16(TensorRT-LLM反量化为FP8),进行计算;

原理:1. 哪些w的量化误差,会导致最终误差较大?答:和这些w相乘的那些activation,绝对值大的;所以,选取activation矩阵中,绝对值较大的channels,和这些相乘的w行;2. 怎么缩小这些行的量化误差?答:量化误差,是由round取整带来的,只要把w先扩大一些,再进行

### 关于 Mistral-Large-Instruct-2407-AWQ 的详细介绍 #### 模型概述 Mistral-Large-Instruct-2407-AWQ 是一款基于量化技术优化的大规模预训练语言模型,旨在降低运行成本并提高推理效率。该版本采用了 AWQ (Activation-aware Weight Quantization) 技术,在保持较高精度的同时显著减少了计算资源需求[^1]。 #### 获取文档与下载链接 为了方便开发者获取最新资料,建议访问官方发布的教程页面以及魔搭社区中的 Hugging Face 镜像站点来查找详细的安装指南和技术文档。这些平台通常会提供最全面的说明和支持材料[^3]。 ```bash # 访问HuggingFace镜像站获取更多详情 https://hf-mirror.com/ ``` #### 使用方法简介 对于希望快速上手此模型的应用场景而言,可以通过 OpenWebUI 工具实现一键部署功能。这使得即使是不具备深厚技术背景的人也能轻松完成配置工作。具体操作流程可参照相关视频教程了解每一步骤的具体实施细节[^2]。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "mistral-large-instruct-2407-awq" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) input_text = "<|user|>\nWhat is the capital of France?<|end|>" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs) response = tokenizer.decode(outputs[0], skip_special_tokens=True) print(response) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值