如何实现多模型推理服务路由

方案设计

用户在前端页面选择目标模型后,根据用户的选择在HTTP请求头中注入模型标识参数,并向统一的Nginx地址发起请求。Nginx根据请求头中的模型信息,将请求转发至相应的模型服务。

当前也有AI网关(如Higress 、Kong AI Gateway和Apache APISIX),这些网关支持多模型代理、Token速率限制、流量管理和内容审核等功能。如果需要更高级的功能支持,也可采用这类网关。

代码实现

关键代码如下

应用服务:

用户通过前端界面选择目标模型,根据用户选择的模型名称动态设置不同的 HTTP 请求头。

Nginx配置

使用 map 指令根据请求头中的模型信息配置路由规则,从而实现模型的代理和切换。

map $http_ai_model_name $backend_url {
default http://127.0.0.1:11435;
"qwen2.5:7b" http://127.0.0.1:11434;
"deepseek-r1:14b" http://127.0.0.1:11435;
}

效果验证

分别启动了推理服务 qwen(端口:11434)和deepseek(端口:11435),应用服务统一请求Nginx的http://ip:9003/v1/chat/completions。

在前端选择不同模型进行请求,只有对应的模型服务可以接收到请求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值