部署
文章平均质量分 95
该专栏包括模型部署、各类中间件部署、各类框架部署、服务器申请以及备案等
还是码字踏实
多看多想多总结,多说多做多帮人。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FastChat框架深度解析:分布式大语言模型服务架构
FastChat是一个开源的大语言模型服务平台,采用三层分布式架构设计,包含Controller、Worker和Server组件。Controller负责智能调度与负载均衡,支持抽奖和最短队列两种策略;Worker处理模型加载与推理,集成量化技术和多GPU并行;Server提供API兼容层和流式响应。系统采用心跳机制确保可靠性,支持多种部署模式,包括单机、多Worker和混合部署。该架构实现了控制平面与数据平面分离,具备良好的扩展性和容错能力。原创 2025-10-15 01:22:04 · 529 阅读 · 0 评论 -
大语言模型部署完整指南:从0到1傻瓜式全流程梳理
大模型部署技术指南摘要 本指南系统性地介绍了大语言模型(LLM)的部署全流程,涵盖硬件评估、框架选择、API标准、模型下载和生产部署等核心环节。 硬件评估部分详细解析了显存计算公式,包括模型参数量、精度格式和KV缓存的影响,并提供了Llama-7B等主流模型的显存需求参考。 部署框架章节对比了vLLM、SGLang、FastChat等5种主流方案,重点分析了vLLM的PagedAttention技术和SGLang的结构化生成优势。 API标准化部分阐述了OpenAI兼容接口的设计规范,包括端点路径、请求格式原创 2025-10-01 18:51:07 · 964 阅读 · 0 评论
分享