谷歌负载均衡Maglev实现简析_a fast and reliable software network load balancer-CSDN博客

集群中多个Maglev通过BGP(边界网管协议)向路由器报告自己所监听的vips, 核心路由器通过ECMP（等价多路径）协议将请求分发给Maglev，而ECMP可以保证同一条流分发到同一个Maglev，可以保证用户数据流通畅。但是ECMP还有一个缺点，所有链路等价的(不能权重配置)，必须所有Meglev处理能力是相近的，否则，可能会发生拥塞。

Maglev在收到请求后，再做负载均衡，分发给服务节点。在对请求选定服务节点之后，对该请求做封包处理，加上Gre header发给节点。节点将解封并处理请求，而返回的response直接以vip为源地址，用户地址为目的地址，发往路由器（DSR，Direct Server Return），不再经过Maglev. 这样又提高了Maglev一半的处理能力！

Maglev内部架构

Maglev分为两个部分：控制器和转发器

控制器

通过心跳检查转发器是否正常，并将所有的vips通过BGP通知给路由器

转发器

每一个vip关联到一个或多个后端池（BP: backend pool），每一个BP包含多个后端server的真实ip或者其他BP。同时对每一个后端server做健康检查，通过一些策略，将数据包均衡负载到各个健康的后端server上去。

转发器实现

转发器作作为核心模块通过steering module内核模块直接从网卡收发包，从而绕过了linux kernel协议栈，从而实现快速转发。

转发器收包时先将数据包五元组做哈希运算，并根据哈希值放入到不同的接收队列，每个接收队列的都有一个独立的线程处理其数据包重写(添加Gre header)的逻辑。

线程处理先做vip匹配过滤，再计算五元组哈希，查找连接跟踪表(每个线程都有一个独立的连接跟踪表)，查到就直接用该连接信息添加Greheader，查不到就通过一致性哈希选择一个后端服务器，并添加对应Gre header，同时将该五元组的连接添加到连接跟踪表中去。数据包添加完Gre header之后，就将数据包发送到对应的发送队列(即一个处理线程对应一个接收队列和一个发送队列)。

muxing module内核模块通过poll轮询所有的发送队列，将数据包都发送到网卡。