大模型量化技术-AWQ

最新推荐文章于 2025-04-23 15:04:06 发布

段智华

最新推荐文章于 2025-04-23 15:04:06 发布

阅读量1k

点赞数

分类专栏：深入理解 ChatGPT 文章标签：大模型量化

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/137266105

版权

深入理解 ChatGPT 专栏收录该内容

180 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了AWQ算法，一种用于压缩基于Transformer的语言模型的激活感知权重量化技术。该算法在Ji Lin等人的论文中提出，并在2023年6月详细阐述。AWQ能有效压缩模型而保持性能。文章提到两个开源实现库AutoAWQ和LLM-AWQ，并展示了如何使用AutoAWQ进行模型量化，包括配置文件的修改和GPU加载量化模型的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大模型量化技术-AWQ
在2023年6月，Ji Lin等人发表了论文AWQ：Activation-aware Weight Quantization for LLM Compression and Acceleration。

在这里插入图片描述

这篇论文详细介绍了一种激活感知权重量化算法，可以用于压缩任何基于 Transformer 的语言模型，同时只有微小的性能下降。关于 AWQ 算法的详细介绍，见MIT Han Song 教授分享。

在这里插入图片描述

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

段智华 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。