OmniQuant入门学习资料-Omnidirectionally Calibrated Quantization for LLMs

最新推荐文章于 2024-11-12 11:12:28 发布

Nifc666

最新推荐文章于 2024-11-12 11:12:28 发布

阅读量360

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Nifc666/article/details/142485755

版权

OmniQuant

OmniQuant简介

OmniQuant是一种针对大语言模型(LLMs)的简单而强大的量化技术。它提出了一种全方位校准的量化方法,可以在保持post-training量化的训练时间和数据效率的同时,实现接近量化感知训练的性能。

OmniQuant的主要特点包括:

支持权重量化(W4A16/W3A16/W2A16)和权重-激活量化(W6A6, W4A4)
提供了预训练的OmniQuant模型库,包括LLaMA-1&2、LLaMA-2-Chat、OPT等模型
利用MLC-LLM实现了在GPU和移动设备上运行量化后的LLaMA-2-Chat模型

相关资源

GitHub仓库: GitHub - OpenGVLab/OmniQuant: [ICLR2024 spotlight] OmniQuant is a simple and powerful quantization technique for LLMs.

这是OmniQuant的官方代码仓库,包含了完整的实现代码、使用说明和实验结果。
论文: OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

详细介绍了OmniQuant的技术原理和实验结果。
HuggingFace模型库: https://huggingface.co/ChenMnZ/OmniQuant/tree/main

提供了预训练的OmniQuant模型参数下载。
MLC-LLM项目: GitHub - mlc-ai/mlc-llm: Universal LLM Deployment Engine with ML Compilation

OmniQuant利用MLC-LLM实现了量化模型在多种硬件后端的部署。

使用教程

安装

conda create -n omniquant python=3.10 -y
conda activate omniquant
git clone https://github.com/OpenGVLab/OmniQuant.git
cd OmniQuant
pip install --upgrade pip 
pip install -e .

权重量化示例(以LLaMA-7B为例)

CUDA_VISIBLE_DEVICES=0 python main.py \
--model /PATH/TO/LLaMA/llama-7b  \
--epochs 20 --output_dir ./log/llama-7b-w3a16 \
--eval_ppl --wbits 3 --abits 16 --lwc

权重-激活量化示例

CUDA_VISIBLE_DEVICES=0 python main.py \
--model /PATH/TO/LLaMA/llama-7b  \
--epochs 20 --output_dir ./log/llama-7b-w4a4 \
--eval_ppl --wbits 4 --abits 4 --lwc --let \
--tasks piqa,arc_easy,arc_challenge,boolq,hellaswag,winogrande

使用MLC-LLM部署量化模型

详细教程见runing_quantized_models_with_mlc_llm.ipynb

实验结果

OmniQuant在权重量化和权重-激活量化上都达到了当前最优水平(SOTA)的性能。具体结果可以参考GitHub仓库中的结果展示部分。

OmniQuant为大语言模型的量化和部署提供了一个简单有效的解决方案。欢迎感兴趣的读者深入研究相关资源,尝试使用OmniQuant来压缩和加速您的语言模型。

文章链接：www.dongaigc.com/a/omniquant-introduction-resources

https://www.dongaigc.com/a/omniquant-introduction-resources

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。