AWQ: 激活感知权重量化项目推荐

钟涌创

于 2024-09-13 22:09:51 发布

阅读量391

点赞数 4

本文链接：https://blog.csdn.net/gitblog_09508/article/details/142228671

版权

项目名称: AWQ: Activation-aware Weight Quantization
项目链接: https://github.com/mit-han-lab/llm-awq
主要编程语言: Python

AWQ 是一个用于大语言模型（LLM）压缩和加速的激活感知权重量化方法。其核心功能包括：

2024/05:
- AWQ 获得 MLSys 2024 最佳论文奖。
- 新增对 VILA-1.5 模型家族的支持，该家族具有视频理解功能。
- AMD 采用 AWQ 以提高 LLM 服务效率。
2024/04:
- 发布对 Llama-3 模型家族的 AWQ 和 TinyChat 支持。
2024/02:
- AWQ 被接受为 MLSys 2024 论文。
- 支持 VILA 视觉语言模型，并提供最新的多图像输入演示。
- 发布新版本的量化 GEMM/GEMV 内核，在 NVIDIA Jetson Orin 上达到 38 个 token/秒的推理速度。
2024/01:
- AWQ 被集成到 Google Vertex AI。
2023/11:
- AWQ 被集成到 Amazon Sagemaker Containers。
- 新增对 CodeLlama、StarCoder、StableCode 模型的 AWQ 支持和预计算搜索结果。
- AWQ 通过 from_pretrained 方法原生集成到 Hugging Face Transformers。
2023/10:
- AWQ 集成到 NVIDIA TensorRT-LLM。
2023/09:
- AWQ 集成到 Intel Neural Compressor、FastChat、vLLM、HuggingFace TGI 和 LMDeploy。
- 发布最新版本的 TinyChat，在 Orin 上比首次发布快约 2 倍。
- 发布 AutoAWQ，第三方实现，使 AWQ 更容易扩展到新模型，提高推理速度，并集成到 Huggingface。
2023/07:
- 发布 TinyChat，一个基于 AWQ 的高效轻量级聊天机器人接口，支持 Llama-2-chat 模型。
- 新增对 Llama-2 模型（7B 和 13B）的 AWQ 支持和预计算搜索结果。
- 扩展支持更多 LLM 模型，包括 MPT、Falcon 和 BLOOM。