vllm-gptq 项目推荐

最新推荐文章于 2024-09-13 22:33:04 发布

钱铖璋

最新推荐文章于 2024-09-13 22:33:04 发布

阅读量143

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gitblog_07772/article/details/142233212

版权

vllm-gptq 项目推荐

vllm-gptq A high-throughput and memory-efficient inference and serving engine for LLMs 项目地址: https://gitcode.com/gh_mirrors/vll/vllm-gptq

项目基础介绍和主要编程语言

vllm-gptq 是一个基于 vLLM 的高吞吐量和内存高效的推理和服务引擎，专门用于大型语言模型（LLMs）。该项目主要使用 Python 和 Cuda 进行开发，其中 Python 占据了代码库的大部分，而 Cuda 则用于优化和加速计算密集型任务。

项目核心功能

vllm-gptq 的核心功能包括：

高吞吐量和内存效率：通过优化算法和硬件利用率，提供高效的推理服务。
GPTQ 量化支持：增加了对 GPTQ int4 量化模型的支持，显著降低了模型推理的内存占用。
Qwen 系列模型支持：特别针对 Qwen 系列大语言模型进行了优化和测试。

项目最近更新的功能

最近更新的功能主要包括：

GPTQ int4 量化模型支持：在 Qwen-72B-Chat 上进行了测试，并提供了详细的性能数据。
安装和使用指南：更新了详细的安装步骤和使用说明，特别是针对 Qwen 量化模型的运行方法。
API 调用支持：增加了通过 API 方式调用模型的功能，用户可以通过 FastChat 和 OpenAI-Python 库进行调用。

通过这些更新，vllm-gptq 进一步提升了其在大型语言模型推理和服务领域的实用性和效率。

vllm-gptq A high-throughput and memory-efficient inference and serving engine for LLMs 项目地址: https://gitcode.com/gh_mirrors/vll/vllm-gptq

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

钱铖璋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。