如何实现多模型推理服务路由

木鱼时刻

已于 2025-06-08 15:50:33 修改

阅读量221

点赞数 11

分类专栏：大模型文章标签：人工智能 AI编程

于 2025-06-07 16:59:01 首次发布

本文链接：https://blog.csdn.net/rzb1986/article/details/148497482

版权

大模型专栏收录该内容

3 篇文章

订阅专栏

方案设计

用户在前端页面选择目标模型后，根据用户的选择在HTTP请求头中注入模型标识参数，并向统一的Nginx地址发起请求。Nginx根据请求头中的模型信息，将请求转发至相应的模型服务。

当前也有AI网关（如Higress 、Kong AI Gateway和Apache APISIX），这些网关支持多模型代理、Token速率限制、流量管理和内容审核等功能。如果需要更高级的功能支持，也可采用这类网关。

代码实现

关键代码如下

应用服务：

用户通过前端界面选择目标模型，根据用户选择的模型名称动态设置不同的 HTTP 请求头。

Nginx配置

使用 map 指令根据请求头中的模型信息配置路由规则，从而实现模型的代理和切换。

map $http_ai_model_name $backend_url {
default http://127.0.0.1:11435;
"qwen2.5:7b" http://127.0.0.1:11434;
"deepseek-r1:14b" http://127.0.0.1:11435;
}

效果验证

分别启动了推理服务 qwen（端口：11434）和deepseek（端口：11435），应用服务统一请求Nginx的http://ip:9003/v1/chat/completions。

在前端选择不同模型进行请求，只有对应的模型服务可以接收到请求。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

木鱼时刻

关注关注

11
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

详谈大模型训练和推理优化技术

夏栀的博客

05-19

1万+

本文介绍大模型的训练和推理优化技术，包括混合精度训练、分布式训练DeepSpeed、INT8模型量化、参数有效性学习、混合专家训练、梯度检查点、梯度累积、Flash Attention等。

基于Transformer框架实现微调后Qwen/DeepSeek模型的流式推理并封装成接口

羊城迷鹿的博客

04-05

812

在大语言模型（LLM）应用的实际落地过程中，流式推理（Streaming Inference）是提升用户体验的关键技术。与[《基于Transformer框架实现微调后Qwen/DeepSeek模型的非流式批量推理》](https://wangjn.blog.csdn.net/article/details/146283684)中使用的传统的批量推理不同，流式推理允许模型在生成过程中实时返回部分结果，从而实现类似于人类对话的交互体验。本文将详细介绍如何基于Transformer框架对微调后的Qwen2和Dee

参与评论您还未登录，请先登录后发表或查看评论

浅析云原生模型推理服务框架KServe

吃果冻不吐果冻皮

05-29

3514

简介 KServe 提供一个 Kubernetes 自定义资源定义，用于在任意框架上提供机器学习 (ML) 模型服务。它旨在通过为常见的 ML 框架（如：Tensorflow、XGBoost、Scikit-Learn、PyTorch 和 ONNX）提供高性能、高度抽象的接口来解决生产模型服务场景。它封装了自动缩放、网络、健康检查和服务配置的复杂性，为您的 ML 部署带来了尖端的服务功能，如：GPU 自动缩放、归零缩放和金丝雀发布等。它为 Production ML Serving 提供了一个简单、可

Nginx × vLLM 高效联动实践：多模型推理的负载均衡与调度优化策略

努力分享一些人工智能相关的知识干货！

05-08

1498

在多模型部署与并发推理成为主流需求的背景下，如何构建一套高可用、可扩展、具备流量调控能力的大模型服务入口，已成为工程落地中的关键挑战。Nginx 作为稳定成熟的高性能 Web 网关，在与 vLLM 结合时，不仅可以承担统一入口、动态路由与多实例负载均衡职责，还能通过多路转发、探活检测、熔断机制等能力，有效缓解大模型推理系统的热点压力与故障风险。本文基于企业实战部署经验，系统拆解 vLLM 多实例推理服务在 Nginx 支撑下的部署结构、请求调度策略与运行表现，提供一套可复用、可观测、可维护的大模型服务路由优

一文汇总大模型推理框架！

HUANGXIN9898的博客

04-19

1068

大型语言模型（LLM）已成为驱动智能客服、内容创作、代码生成等领域变革的核心力量。推理框架作为LLM高效部署的关键组件，直接关系到应用的性能、成本和开发效率。本文罗列常用大模型框架的特点，以供实际应用需要！

大模型推理加速技术简介

llptyy的博客

04-08

2538

大模型推理加速技术

大语言模型推理效率优化策略

XianxinMao的博客

02-23

956

数据级优化通过输入压缩、输出组织、检索增强生成和提示工程等技术，显著提升了大语言模型的推理效率。这些方法直接作用于数据处理流程，优化了模型的输入输出效率，使其在资源受限的环境或对延迟敏感的应用中更加实用。模型级优化则通过改进注意力机制、模型压缩和知识蒸馏等方法，从内部结构入手提升计算效率。系统级优化通过硬件加速、分布式推理和内存管理，进一步提升了模型在实际部署中的性能。小语言模型通过有效的训练和优化，在特定任务上达到与大型模型相当的性能，提供了一种更高效的替代方案，尤其在资源受限的场景下尤为适用。这些优化技

vLLM 大模型推理引擎调研文档

技术分享，读书笔记，面试宝典，算法积累，应有尽有～

10-16

2649

vLLM 是一个快速且易于使用的 LLM 推理和服务库，文章内容包含模型引擎部署、参数量化、性能调优分析等全套内容。

大语言模型高效推理技术

yorkhunter的博客

06-16

826

24年6月来自无问芯穹、清华大学和上海交大的论文“A Survey on Efficient Inference for Large Language Models”。

高并发大模型推理服务内存优化实战：KV Cache 管理、显存调度与资源复用策略全解析

努力分享一些人工智能相关的知识干货！

05-08

750

在大模型推理系统进入高并发部署阶段后，如何优化显存资源、提升 KV Cache 复用率、降低推理过程中长尾内存压力，成为影响系统稳定性和成本控制的关键因素。特别是在多实例、长上下文、Streaming 推理频繁的场景中，推理服务常面临 GPU 显存爆满、Cache page 溢出、OOM 崩溃等问题。本文结合 vLLM 架构与实际部署案例，深入剖析高并发推理系统中的核心内存管理策略，包括 KV Cache 分配与回收机制、Page 管理优化、批次拼接提升显存利用率，以及多模型共存下的显存隔离与负载均衡方法，

高并发大模型推理服务中的动态实例池构建与资源感知调度策略实战

努力分享一些人工智能相关的知识干货！

05-08

822

在企业级大模型推理系统中，随着并发用户数量激增和多模型服务场景的拓展，构建具备动态伸缩能力的模型实例池成为推理服务架构的核心挑战。推理请求在运行时具有上下文长度差异大、Streaming 生命周期不定、资源消耗波动剧烈等特点，要求系统不仅能动态调配模型 Worker，还需具备资源感知、并发队列优先级调度、任务热切换等能力。本文基于 vLLM 推理框架与实际生产部署经验，深入剖析动态实例池的核心组件设计、GPU 占用感知路由策略、调度器的并发处理机制以及多 Worker 架构下的异常隔离与健康管理方法，提供一

【大模型:知识图谱】--3.py2neo连接图数据库neo4j

我是个好人呀，????

06-03

1471

本文介绍了Neo4j图数据库的安装与基本操作。主要内容包括：1) 使用py2neo连接Neo4j数据库；2) 通过Python实现节点创建、删除、属性修改等操作；3) 建立节点间关系的方法；4) 使用NodeMatcher和RelationshipMatcher进行节点和关系查询；5) 通过实例演示如何创建人物节点及其关系网络。文章还对比了Neo4j社区版和企业版的差异。全文提供了完整的代码示例，涵盖从连接到CRUD操作的完整流程。

深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（2）

ak47maker的博客

06-05

496

本文针对ResNet18模型剪枝进行了优化改进，主要包含三个方面：1) 将剪枝目标层从底层conv1调整为中间层layer2.0.conv1，减少对基础特征的破坏；2) 采用基于激活值的前向传播方法评估通道重要性，优先剪除低激活通道；3) 改进微调策略，动态解冻关联层并使用更低学习率(0.0001)进行10轮微调。这些优化有效提升了剪枝后模型的稳定性和性能表现，特别是通过中间层剪枝和基于特征贡献的通道选择策略，避免了底层特征破坏带来的连锁反应。

通过基于流视频预测的可泛化双手操作基础策略

yorkhunter的博客

06-04

2224

25年5月来自中国电信、西北工业大学和香港科大的论文“Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction”。由于动作空间巨大且需要协调手臂运动，学习可泛化的双手操作策略对于具身智体而言极具挑战性。现有方法依赖于视觉-语言-动作 (VLA) 模型来获取双手操作策略。然而，从单臂数据集或预训练 VLA 模型迁移知识通常无法有效泛化，这主要是由于双手数据的匮乏以及单臂和双手操作之间的根本差异。本文

智能终端与边缘计算