MIT开源AWQ：激活值感知的LLM低位权重量化

青稞社区.

已于 2024-08-11 20:28:34 修改

阅读量368

点赞数 10

分类专栏：青稞Talk 文章标签：人工智能语言模型开源

于 2024-08-11 20:23:23 首次发布

本文链接：https://blog.csdn.net/QingKeLab/article/details/141111082

版权

青稞Talk 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

青稞Talk：青年AI研究员idea加油站
https://qingkelab.github.io/talks

在这里插入图片描述
AWQ 是由 MIT 韩松教授团队推出的一种针对大型语言模型（LLMs）的高效且精确的低位权重量化（INT3/4）方法，通过仅保护1%的显著权重就可以大大减少量化误差，且支持指令调整模型和多模态语言模型。代码已经开源！

Paper：AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
Abs：https://arxiv.org/abs/2306.00978
Code：https://github.com/mit-han-lab/llm-awq

为了识别显著的权重通道，应参考激活分布，而不是权重。为了避免硬件低效的混合精度量化，通过数学推导得出，放大显著通道可以减少量化误差。AWQ采用等效变换来放大显著权重通道以保护它们。该比例通过离线收集激活统计数据确定。AWQ不依赖任何反向传播或重构，因此可以泛化到不同的领域和模态，而不会过拟合校准集。
在这里插入图片描述

在这里插入图片描述

AWQ 在桌面和移动 GPU 上比 Huggingface 的 FP16 实现快3倍以上。它还实现了在移动 GPU 上部署 70B Llama-2 模型的普及。AWQ 还获得了MLSys 2024最佳论文奖，现已被集成到Transformers、vLLM、FastChat、TensorRT-LLM和TGI中。

在这里插入图片描述

8月14日晚7点，青稞Talk第19期，MIT准博士生唐嘉铭，将直播分享《AWQ：激活值感知的LLM低位权重量化》。

在这里插入图片描述

Talk信息

主讲嘉宾

唐嘉铭，MIT准博士生，导师是韩松教授；此前，在上海交通大学（ACM班）获得了计算机科学学士学位；大三期间，在上海交通大学高性能计算中心实验室（EPCCLab）进行科研实习，导师是冷静文教授；研究兴趣是大语言模型的高效算法和系统，发表的论文 AWQ 获得了MLSys 2024最佳论文奖，并已被集成到Transformers、vLLM、FastChat、TensorRT-LLM和TGI中。

主题

AWQ：激活值感知的LLM低位权重量化

提纲：

1、大模型量化的常见方法介绍
2、激活感知权重量化 AWQ 技术解析
3、AWQ 的代码实现及使用方法

直播时间

8月14日（周三）19:00 - 20:00

参与方式

Talk 将在青稞·知识社区上进行，扫码对暗号：" 0814 "，报名进群！

青稞社区.

关注

10
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MIT开源AWQ：激活值感知的LLM低位权重量化

AWQ 是由 MIT 韩松教授团队推出的一种针对大型语言模型（LLMs）的高效且精确的低位权重量化（INT3/4）方法，通过仅保护1%的显著权重就可以大大减少量化误差，且支持指令调整模型和多模态语言模型。代码已经开源！为了识别显著的权重通道，应参考激活分布，而不是权重。为了避免硬件低效的混合精度量化，通过数学推导得出，放大显著通道可以减少量化误差。AWQ采用等效变换来放大显著权重通道以保护它们。该比例通过离线收集激活统计数据确定。
复制链接

扫一扫