目录
GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。
项目地址:https://github.com/shell-nlp/gpt_server
配置文件的详细说明(后续持续完善)
openai_api_server配置
serve_args:
enable: true
host: 0.0.0.0
port: 8082
controller_address: http://localhost:21001
- 功能:OpenAI API服务的主入口配置
- 参数说明:
enable:服务开关(true/false)host:监听地址port:服务暴露端口controller_address:下游控制器服务地址api_keys:用来设置 openai 密钥
控制器(controller)配置
controller_args:
enable: true
host: 0.0.0.0
port: 21001
dispatch_method: shortest_queue
- 核心功能:请求调度中心
- 参数说明:
enable:服务开关(true/false)host:监听地址port:服务暴露端口dispatch_method:支持两种策略:lottery:随机分配shortest_queue(推荐):选择负载最低的Worker
- 设计建议:生产环境建议保持
shortest_queue以实现负载均衡
模型(worker)配置
model_worker_args:
host: 0.0.0.0
controller_address: http://localhost:21001
log_level: WARNING
limit_worker_concurrency: 1024
- 参数说明:
host:监听地址controller_address:下游控制器服务地址log_level:日志级别(DEBUG/INFO/WARNING/ERROR)limit_worker_concurrency:单个Worker最大并发请求数
- 端口说明:Worker端口由系统自动分配并注册到控制器
模型配置
大语言模型 示例:Qwen
models:
- qwen: # 模型的自定义名称

最低0.47元/天 解锁文章
531

被折叠的 条评论
为什么被折叠?



