
vLLM
文章平均质量分 69
HyperAI超神经
链接人工智能新场景
展开
-
【vLLM 学习】基础教程
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-05-14 19:16:52 · 962 阅读 · 0 评论 -
vLLM 实战教程汇总,从环境配置到大模型部署,中文文档追踪重磅更新
10 个实用教程与模型案例快速掌握 vLLM原创 2025-05-09 16:03:29 · 854 阅读 · 0 评论 -
【vLLM 学习】Audio Language
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。源码 examples/offline_inference/audio_language.py。*在线运行 vLLM 入门教程:零基础分步指南。更多 vLLM 中文文档及教程可访问 →。原创 2025-05-09 17:42:06 · 174 阅读 · 0 评论 -
【vLLM 学习】CPU 离线处理
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-27 17:20:38 · 215 阅读 · 0 评论 -
【vLLM 学习】Aqlm 示例
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-18 17:39:20 · 313 阅读 · 0 评论 -
【vLLM 学习】API 客户端
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-11 18:41:26 · 291 阅读 · 0 评论 -
【vLLM 学习】调试技巧
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-03 20:26:49 · 1017 阅读 · 0 评论 -
【vLLM 学习】快速入门
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →在继续进行本指南之前,请务必完成。默认情况下,vLLM 从下载模型。如果您想在以下示例中使用。原创 2025-03-28 19:28:43 · 1075 阅读 · 0 评论 -
【vLLM 学习】使用 XPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 最初在 Intel GPU 平台上支持基本模型推理和服务。原创 2025-03-21 14:48:06 · 376 阅读 · 0 评论 -
【vLLM 学习】使用 TPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。原创 2025-03-14 16:40:36 · 564 阅读 · 0 评论 -
【vLLM 教程】使用 TPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。原创 2025-03-09 23:16:37 · 475 阅读 · 0 评论 -
【vLLM 学习】使用 Neuron 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →从 vLLM 0.3.3 版本起,支持在带有 Neuron SDK 的 AWS Trainium/Inferentia 上进行模型推理和服务。目前 Neuron SDK 不支持分页注意力 (Paged Attention),但 Transformers-neuronx 支持简单的连续批处理。Neuron SDK 目前支持的数据类型为 FP16 和 BF16。原创 2025-02-28 15:47:38 · 614 阅读 · 0 评论 -
【vLLM 学习】使用 CPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 最初支持在 x86 CPU 平台上的基本模型推理和服务,数据类型为 FP32 和 BF16。原创 2025-02-07 14:42:04 · 2474 阅读 · 0 评论 -
【vLLM 学习】使用 OpenVINO 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →由 OpenVINO 驱动的 vLLM 支持来自 vLLM 支持的模型列表 <…/models/supported_models> 中的所有 LLM 模型,并且可以在所有 x86-64 CPU 上(至少需要 AVX2 支持)进行最佳的模型服务。原创 2025-01-24 15:53:09 · 793 阅读 · 0 评论 -
【vLLM 学习】使用 ROCm 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 支持采用 ROCm 6.1 的 AMD GPU。原创 2025-01-17 16:43:31 · 1436 阅读 · 0 评论 -
【vLLM 学习】安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/vLLM 是一个 Python 库,包含预编译的 C++ 和 CUDA (12.1) 二进制文件。原创 2025-01-10 14:45:04 · 2127 阅读 · 0 评论 -
【vLLM 学习】欢迎来到 vLLM!
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 是一个快速且易于使用的库,专为大型语言模型 (LLM) 的推理和部署而设计。vLLM 的灵活性和易用性体现在以下方面:无缝集成流行的 HuggingFace 模型具有高吞吐量服务以及各种解码算法,包括并行采样、束搜索等支持张量并行和流水线并行的分布式推理流式输出提供与 OpenAI 兼容的 API 服务器。原创 2025-01-03 18:29:15 · 1216 阅读 · 0 评论