vllm-gptq 项目推荐

vllm-gptq 项目推荐

vllm-gptq A high-throughput and memory-efficient inference and serving engine for LLMs vllm-gptq 项目地址: https://gitcode.com/gh_mirrors/vll/vllm-gptq

项目基础介绍和主要编程语言

vllm-gptq 是一个基于 vLLM 的高吞吐量和内存高效的推理和服务引擎,专门用于大型语言模型(LLMs)。该项目主要使用 PythonCuda 进行开发,其中 Python 占据了代码库的大部分,而 Cuda 则用于优化和加速计算密集型任务。

项目核心功能

vllm-gptq 的核心功能包括:

  1. 高吞吐量和内存效率:通过优化算法和硬件利用率,提供高效的推理服务。
  2. GPTQ 量化支持:增加了对 GPTQ int4 量化模型的支持,显著降低了模型推理的内存占用。
  3. Qwen 系列模型支持:特别针对 Qwen 系列大语言模型进行了优化和测试。

项目最近更新的功能

最近更新的功能主要包括:

  1. GPTQ int4 量化模型支持:在 Qwen-72B-Chat 上进行了测试,并提供了详细的性能数据。
  2. 安装和使用指南:更新了详细的安装步骤和使用说明,特别是针对 Qwen 量化模型的运行方法。
  3. API 调用支持:增加了通过 API 方式调用模型的功能,用户可以通过 FastChat 和 OpenAI-Python 库进行调用。

通过这些更新,vllm-gptq 进一步提升了其在大型语言模型推理和服务领域的实用性和效率。

vllm-gptq A high-throughput and memory-efficient inference and serving engine for LLMs vllm-gptq 项目地址: https://gitcode.com/gh_mirrors/vll/vllm-gptq

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

钱铖璋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值