大模型推理工具：vLLM的入门使用

AI老谭

于 2024-04-08 16:31:21 发布

阅读量2.7w

点赞数 31

文章标签： llama python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84215165/article/details/137514241

版权

简介

vLLM是一个快速且易于使用的LLM推理和服务库。

vLLM速度很快：

最先进的服务吞吐量
使用PagedNote有效管理注意力键和值内存
传入请求的连续批处理
使用CUDA/HIP图快速执行模型
量化：GPTQ、AWQ、SqueezeLLM、FP8 KV缓存
优化的CUDA内核

vLLM灵活且易于使用：

与流行的拥抱脸模型无缝集成
高吞吐量服务于各种解码算法，包括并行采样、波束搜索等
分布式推理的张量并行性支持
流式输出
与OpenAI兼容的API服务器
支持NVIDIA GPU和AMD GPU
（实验性）前缀缓存支持
（实验性）Multi-lora支持

vLLM无缝支持多种拥抱脸模型，包括以下架构：

Aquila & Aquila2 (BAAI/AquilaChat2-7B, BAAI/AquilaChat2-34B, BAAI/Aquila-7B, BAAI/AquilaChat-7B, etc.)
Baichuan & Baichuan2 (baichuan-inc/Baichuan2-13B-Chat, baichuan-inc/Baichuan-7B, etc.)
BLOOM (bigscience/bloom, bigscience/bloomz, etc.)
ChatGLM (THUDM/chatglm2-6b, THUDM/chatglm3-6b, etc.)
Command-R (CohereForAI/c4ai-command-r-v01, etc.)
DBRX (databricks/dbrx-base, databricks/dbrx-instruct etc.)
DeciLM (Deci/DeciLM-7B, Deci/DeciLM-7B-instruct, etc.)
Falcon (tiiuae/falcon-7b, tiiuae/falcon-40b, tiiuae/falcon-rw-7b, etc.)
Gemma (google/gemma-2b, google/gemma-7b, etc.)
GPT-2 (gpt2, gpt2-xl, etc.)
GPT BigCode (bigcode/starcoder, bigcode/gpt_bigcode-santacoder, etc.)
GPT-J (EleutherAI/gpt-j-6b, nomic-ai/gpt4all-j, etc.)
GPT-NeoX (EleutherAI/gpt-neox-20b, data

最低0.47元/天解锁文章

博客等级

码龄1年

11
原创

96
点赞

103
收藏

61
粉丝

关注

私信

热门文章

最新评论

大模型推理工具：vLLM的入门使用
你在康什么: 是否支持windows系统，如果不用wsl的话
Chatglm3-6b初体验
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
大模型推理工具：vLLM的入门使用
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618411760。

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。