Paddler入门指南 - 专为llama.cpp设计的状态感知负载均衡器

最新推荐文章于 2024-09-26 15:53:51 发布

2401_87458778

最新推荐文章于 2024-09-26 15:53:51 发布

阅读量324

点赞数 5

文章标签： llama 负载均衡运维

本文链接：https://blog.csdn.net/2401_87458778/article/details/142485199

版权

paddler

Paddler简介

Paddler是一个专为llama.cpp设计的开源负载均衡器和反向代理工具。它能够感知llama.cpp服务器的状态,实现更加智能和高效的请求分发。与传统的轮询或最少连接等负载均衡策略不同,Paddler了解每个llama.cpp服务器的可用槽位(slots)情况,从而能够更好地处理并发请求。

Paddler工作原理

主要特性

1. 状态感知负载均衡

Paddler使用代理来监控每个llama.cpp实例的槽位状态,确保请求被高效地分发到可用的服务器。

2. 动态扩缩容支持

支持动态添加或移除llama.cpp服务器,便于与自动扩缩容工具集成。

3. 请求缓冲

允许从零个主机开始扩展,通过缓冲请求来等待新的llama.cpp实例启动。

4. 监控和指标

集成了StatsD协议支持,同时提供内置的状态仪表板。

5. AWS集成

提供与AWS服务(如EC2、Route 53)的集成支持。

安装使用

从GitHub Releases下载最新版本的Paddler。
运行Paddler代理:

./paddler agent \
    --external-llamacpp-host 127.0.0.1 \
    --external-llamacpp-port 8088 \
    --local-llamacpp-host 127.0.0.1 \
    --local-llamacpp-port 8088 \
    --management-host 127.0.0.1 \
    --management-port 8085

运行Paddler负载均衡器:

./paddler balancer \
    --management-host 127.0.0.1 \
    --management-port 8085 \
    --reverseproxy-host 196.168.2.10 \
    --reverseproxy-port 8080