大模型部署
文章平均质量分 96
CodeSilence
三人行,必有我师焉
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型部署指南之 Ollama 篇:一条命令实现开箱即用,零配置玩转主流模型
Ollama 是当前最简单高效的本地大模型运行方案🔍隐私敏感场景:数据完全本地处理💻快速原型开发:一键测试不同模型🚀教育研究用途:低成本体验 LLM 能力资源推荐官方模型库中文优化模型合集LLaMA.cpp。原创 2025-05-07 00:34:24 · 2255 阅读 · 0 评论 -
大模型部署指南之 LMDeploy 篇:从模型压缩到生产级API的完整武器库
LMDeploy 是由 MMDeploy 和 MMRazor 团队开发的全套轻量化、部署和服务解决方案,专为本地化私有部署设计。其核心优势包括极致性能优化、生产级部署、多格式兼容和开放生态。LMDeploy 支持从模型量化到生产级API服务的全流程优化,特别适合需要低延迟、高并发的企业应用。通过内置的量化工具和高并发管理,LMDeploy 显著提升了推理速度并降低了显存占用,使得在消费级显卡上也能流畅运行大模型。此外,LMDeploy 提供了开箱即用的部署工具,简化了从模型转换到服务部署的流程,大幅缩短了部原创 2025-05-10 00:53:23 · 2897 阅读 · 0 评论 -
大模型部署指南之 vLLM 篇:基于PagedAttention的工业级推理方案
vLLM 是一个高性能的大语言模型推理引擎,专为高并发生产环境设计。其核心优势包括通过 PagedAttention 技术实现显存高效管理,提升吞吐量 10-100 倍,支持多种量化技术(如 AWQ/GPTQ/Bitsandbytes),并兼容 HuggingFace 模型和 OpenAI API 协议。vLLM 提供快速安装和配置指南,支持在线模型调用、服务启动、基准测试等功能,并可通过 REST API 进行集成。此外,vLLM 还支持与可视化界面 OpenWebUI 的对接,方便用户通过 Web 界面原创 2025-05-10 00:54:24 · 1180 阅读 · 0 评论
分享