LVS三种负载均衡方式（VS/NAT、VS/TUN、VS/DR）和调度算法介绍

最新推荐文章于 2022-05-15 09:00:00 发布

jgzd1124

最新推荐文章于 2022-05-15 09:00:00 发布

阅读量718

点赞数

分类专栏：运维

运维专栏收录该内容

4 篇文章 0 订阅

订阅专栏

LVS

LVS是一种集群(Cluster)技术，采用IP负载均衡技术和基于内容请求分发技术。调度器具有很好的吞吐率，将请求均衡地转移到不同的服务器上执行，且调度器自动屏蔽掉服务器的故障，从而将一组服务器构成一个高性能的、高可用的虚拟服务器。整个服务器集群的结构对客户是透明的，而且无需修改客户端和服务器端的程序。

一、LVS主要组成部分

负载调度器(load balancer/ Director)，它是整个集群对外面的前端机，负责将客户的请求发送到一组服务器上执行，而客户认为服务是来自一个IP地址(我们可称之为虚拟IP地址)上的。

服务器池(server pool/ Realserver)，是一组真正执行客户请求的服务器，执行的服务一般有WEB、MAIL、FTP和DNS等。

共享存储(shared storage)，它为服务器池提供一个共享的存储区，这样很容易使得服务器池拥有相同的内容，提供相同的服务。

二、LVS负载均衡方式:

(1) Virtual Server via Network Address Translation NAT(VS/NAT)

VS/NAT是一种最简单的方式，所有的RealServer只需要将自己的网关指向Director即可。客户端可以是任意操作系统，但此方式下，一个Director能够带动的RealServer比较有限。在VS/NAT的方式下，Director也可以兼为一台RealServer。VS/NAT的体系结构如图所示。

(2) Virtual Server via IP Tunneling(VS/TUN)

IP隧道(IP tunneling)是将一个IP报文封装在另一个IP报文的技术，这可以使得目标为一个IP地址的数据报文能被封装和转发到另一个IP地址。IP隧道技术亦称为IP封装技术(IP encapsulation)。IP隧道主要用于移动主机和虚拟私有网络(Virtual Private Network)，在其中隧道都是静态建立的，隧道一端有一个IP地址，另一端也有唯一的IP地址。它的连接调度和管理与VS/NAT中的一样，只是它的报文转发方法不同。调度器根据各个服务器的负载情况，动态地选择一台服务器，将请求报文封装在另一个IP报文中，再将封装后的IP报文转发给选出的服务器;服务器收到报文后，先将报文解封获得原来目标地址为 VIP 的报文，服务器发现VIP地址被配置在本地的IP隧道设备上，所以就处理这个请求，然后根据路由表将响应报文直接返回给客户。

(3) Virtual Server via Direct Routing(VS/DR)

VS/DR方式是通过改写请求报文中的MAC地址部分来实现的。Director和RealServer必需在物理上有一个网卡通过不间断的局域网相连。 RealServer上绑定的VIP配置在各自Non-ARP的网络设备上(如lo或tunl),Director的VIP地址对外可见，而RealServer的VIP对外是不可见的。RealServer的地址即可以是内部地址，也可以是真实地址。

VS/DR的工作流程如图所示：它的连接调度和管理与VS/NAT和VS/TUN中的一样，它的报文转发方法又有不同，将报文直接路由给目标服务器。在VS/DR中，调度器根据各个服务器的负载情况，动态地选择一台服务器，不修改也不封装IP报文，而是将数据帧的MAC地址改为选出服务器的MAC地址，再将修改后的数据帧在与服务器组的局域网上发送。因为数据帧的MAC地址是选出的服务器，所以服务器肯定可以收到这个数据帧，从中可以获得该IP报文。当服务器发现报文的目标地址VIP是在本地的网络设备上，服务器处理这个报文，然后根据路由表将响应报文直接返回给客户。

VS/DR的方式是目前大型网站使用最广泛的一种负载均衡手段。

三、三种LVS负载均衡技术的优缺点归纳表：

LVS 常用的调度算法：

固定调度算法：rr，wrr，dh，sh

静态方法仅根据算法本身进行调度，关心的是起点公平。相对LVS而言的，而不关心RS是否可以处理请求，如RS的负载状态。

有如下4类算法

RR：roundrobin：

轮询，后端RS均摊所有的请求

WRR：Weighted RR：

加权轮询，根据权值来分配请求的数量

SH：Source Hashing：

源地址hash，实现session sticky，源IP地址hash；将来自于同一个IP地址的请求始终发往第一次挑中的RS，从而实现会话绑定

但是，这种方式问题比较多，如源地址是nat后的公网地址，如果该地址对应的后端机器很多，这样同一ip的访问可能会对同一服务器造成负担。

DH：Destination Hashing：

目标地址哈希，将发往同一个目标地址的请求始终转发至第一次挑中的RS，典型使用场景是正向代理缓存场景中的负载均衡，如：宽带运营商

动态调度算法：wlc，lc，lblc，lblcr

动态主要根据每RS当前的负载状态及调度算法进行调度Overhead=value较小的RS将被调度

动态调度关心的是最终的结果，要考虑到后端服务器RS的负载情况

有如下6类算法

LC：least connections

适用于长连接应用

Overhead=activeconns*256+inactiveconns

活动连接表示正在传送数据

非活动连接表示建立连接了，但是没有传送数据

WLC：Weighted LC：

WLC是默认调度方法

Overhead=(activeconns*256+inactiveconns)/weight

这里如果是第一次连接，活动和非活动连接的值都是0.，这样同LC和WL的算法计算结果都是0，需要通过SED来解决这个问题。因为初始+1，就会有数值的对比

SED：Shortest Expection Delay：

初始连接高权重优先，Overhead=(activeconns+1)*256/weight

NQ：Never Queue：

第一轮均匀分配，后续SED，解决了第一次分配不均匀的问题。使得所有的服务器都会执行一定的任务

LBLC：Locality-Based LC：

动态的DH算法，使用场景：根据负载状态实现正向代理

LBLCR：LBLC with Replication：

带复制功能的LBLC，解决LBLC负载不均衡问题，从负载重的复制到负载轻的RS

轮叫调度（Round-Robin Scheduling）

轮叫调度（Round Robin Scheduling）算法就是以轮叫的方式依次将请求调度不同的服务器，即每次调度执行i = (i + 1) mod n，并选出第i台服务器。算法的优点是其简洁性，它无需记录当前所有连接的状态，所以它是一种无状态调度。

在系统实现时，我们引入了一个额外条件，当服务器的权值为零时，表示该服务器不可用而不被调度。这样做的目的是将服务器切出服务（如屏蔽服务器故障和系统维护），同时与其他加权算法保持一致。所以，算法要作相应的改动，它的算法流程如下：

轮叫调度算法流程

假设有一组服务器S = {S0, S1, …, Sn-1}，一个指示变量i表示上一次选择的

服务器，W(Si)表示服务器Si的权值。变量i被初始化为n-1，其中n > 0。

j = i;

do {

j = (j + 1) mod n;

if (W(Sj) > 0) {

i = j;

return Si;

}

} while (j != i);

return NULL;

轮叫调度算法假设所有服务器处理性能均相同，不管服务器的当前连接数和响应速度。该算法相对简单，不适用于服务器组中处理性能不一的情况，而且当请求服务时间变化比较大时，轮叫调度算法容易导致服务器间的负载不平衡。

虽然Round-Robin DNS方法也是以轮叫调度的方式将一个域名解析到多个IP地址，但轮叫DNS方法的调度粒度是基于每个域名服务器的，域名服务器对域名解析的缓存会妨碍轮叫解析域名生效，这会导致服务器间负载的严重不平衡。这里，IPVS轮叫调度算法的粒度是基于每个连接的，同一用户的不同连接都会被调度到不同的服务器上，所以这种细粒度的轮叫调度要比DNS的轮叫调度优越很多。

加权轮叫调度（Weighted Round-Robin Scheduling）

加权轮叫调度算法流程

假设有一组服务器S = {S0, S1, …, Sn-1}，W(Si)表示服务器Si的权值，一个

指示变量i表示上一次选择的服务器，指示变量cw表示当前调度的权值，max(S)

表示集合S中所有服务器的最大权值，gcd(S)表示集合S中所有服务器权值的最大

公约数。变量i初始化为-1，cw初始化为零。

while (true) {

i = (i + 1) mod n;

if (i == 0) {

cw = cw - gcd(S);

if (cw <= 0) {

cw = max(S);

if (cw == 0)

return NULL;

}

if (W(Si) >= cw)

return Si;

}

最小连接调度（Least-Connection Scheduling）

最小连接调度（Least-Connection Scheduling）算法是把新的连接请求分配到当前连接数最小的服务器。最小连接调度是一种动态调度算法，它通过服务器当前所活跃的连接数来估计服务器的负载情况。调度器需要记录各个服务器已建立连接的数目，当一个请求被调度到某台服务器，其连接数加1；当连接中止或超时，其连接数减一。

在系统实现时，我们也引入当服务器的权值为零时，表示该服务器不可用而不被调度，它的算法流程如下：

最小连接调度算法流程

假设有一组服务器S = {S0, S1, ..., Sn-1}，W(Si)表示服务器Si的权值，

C(Si)表示服务器Si的当前连接数。

for (m = 0; m < n; m++) {

if (W(Sm) > 0) {

for (i = m+1; i < n; i++) {

if (W(Si) <= 0)

continue;

if (C(Si) < C(Sm))

m = i;

}

return Sm;

}

return NULL;

当各个服务器有相同的处理性能时，最小连接调度算法能把负载变化大的请求分布平滑到各个服务器上，所有处理时间比较长的请求不可能被发送到同一台服务器上。但是，当各个服务器的处理能力不同时，该算法并不理想，因为TCP连接处理请求后会进入TIME_WAIT状态，TCP的TIME_WAIT一般为2分钟，此时连接还占用服务器的资源，所以会出现这样情形，性能高的服务器已处理所收到的连接，连接处于TIME_WAIT状态，而性能低的服务器已经忙于处理所收到的连接，还不断地收到新的连接请求。

加权最小连接调度（Weighted Least-Connection Scheduling）

加权最小连接调度（Weighted Least-Connection Scheduling）算法是最小连接调度的超集，各个服务器用相应的权值表示其处理性能。服务器的缺省权值为1，系统管理员可以动态地设置服务器的权值。加权最小连接调度在调度新连接时尽可能使服务器的已建立连接数和其权值成比例。加权最小连接调度的算法流程如下：

加权最小连接调度的算法流程

假设有一组服务器S = {S0, S1, ..., Sn-1}，W(Si)表示服务器Si的权值，

C(Si)表示服务器Si的当前连接数。所有服务器当前连接数的总和为

CSUM = ΣC(Si) (i=0, 1, .. , n-1)。当前的新连接请求会被发送服务器Sm，

当且仅当服务器Sm满足以下条件

(C(Sm) / CSUM)/ W(Sm) = min { (C(Si) / CSUM) / W(Si)} (i=0, 1, . , n-1)

其中W(Si)不为零

因为CSUM在这一轮查找中是个常数，所以判断条件可以简化为

C(Sm) / W(Sm) = min { C(Si) / W(Si)} (i=0, 1, . , n-1)

其中W(Si)不为零

因为除法所需的CPU周期比乘法多，且在Linux内核中不允许浮点除法，服务器的

权值都大于零，所以判断条件C(Sm) / W(Sm) > C(Si) / W(Si) 可以进一步优化

为C(Sm)*W(Si) > C(Si)* W(Sm)。同时保证服务器的权值为零时，服务器不被调

度。所以，算法只要执行以下流程。

for (m = 0; m < n; m++) {

if (W(Sm) > 0) {

for (i = m+1; i < n; i++) {

if (C(Sm)*W(Si) > C(Si)*W(Sm))

m = i;

}

return Sm;

}

基于局部性的最少链接（Locality-Based Least Connections Scheduling）

基于局部性的最少链接调度（Locality-Based Least Connections Scheduling，以下简称为LBLC）算法是针对请求报文的目标IP地址的负载均衡调度，目前主要用于Cache集群系统，因为在Cache集群中客户请求报文的目标IP地址是变化的。这里假设任何后端服务器都可以处理任一请求，算法的设计目标是在服务器的负载基本平衡情况下，将相同目标IP地址的请求调度到同一台服务器，来提高各台服务器的访问局部性和主存Cache命中率，从而整个集群系统的处理能力。

LBLC调度算法先根据请求的目标IP地址找出该目标IP地址最近使用的服务器，若该服务器是可用的且没有超载，将请求发送到该服务器；若服务器不存在，或者该服务器超载且有服务器处于其一半的工作负载，则用“最少链接”的原则选出一个可用的服务器，将请求发送到该服务器。该算法的详细流程如下：

LBLC调度算法流程

假设有一组服务器S = {S0, S1, ..., Sn-1}，W(Si)表示服务器Si的权值，

C(Si)表示服务器Si的当前连接数。ServerNode[dest_ip]是一个关联变量，表示

目标IP地址所对应的服务器结点，一般来说它是通过Hash表实现的。WLC(S)表示

在集合S中的加权最小连接服务器，即前面的加权最小连接调度。Now为当前系统

时间。

if (ServerNode[dest_ip] is NULL) then {

n = WLC(S);

if (n is NULL) then return NULL;

ServerNode[dest_ip].server = n;

} else {

n = ServerNode[dest_ip].server;

if ((n is dead) OR

(C(n) > W(n) AND

there is a node m with C(m) < W(m)/2))) then {

n = WLC(S);

if (n is NULL) then return NULL;

ServerNode[dest_ip].server = n;

}

ServerNode[dest_ip].lastuse = Now;

return n;

此外，对关联变量ServerNode[dest_ip]要进行周期性的垃圾回收（Garbage Collection），将过期的目标IP地址到服务器关联项进行回收。过期的关联项是指哪些当前时间（实现时采用系统时钟节拍数jiffies）减去最近使用时间超过设定过期时间的关联项，系统缺省的设定过期时间为24小时。

带复制的基于局部性最少链接（Locality-Based Least Connections with Replication Scheduling）

带复制的基于局部性最少链接调度（Locality-Based Least Connections with Replication Scheduling，以下简称为LBLCR）算法也是针对目标IP地址的负载均衡，目前主要用于Cache集群系统。它与LBLC算法的不同之处是它要维护从一个目标IP地址到一组服务器的映射，而LBLC算法维护从一个目标IP地址到一台服务器的映射。对于一个“热门”站点的服务请求，一台Cache 服务器可能会忙不过来处理这些请求。这时，LBLC调度算法会从所有的Cache服务器中按“最小连接”原则选出一台Cache服务器，映射该“热门”站点到这台Cache服务器，很快这台Cache服务器也会超载，就会重复上述过程选出新的Cache服务器。这样，可能会导致该“热门”站点的映像会出现在所有的Cache服务器上，降低了Cache服务器的使用效率。LBLCR调度算法将“热门”站点映射到一组Cache服务器（服务器集合），当该“热门”站点的请求负载增加时，会增加集合里的Cache服务器，来处理不断增长的负载；当该“热门”站点的请求负载降低时，会减少集合里的Cache服务器数目。这样，该“热门”站点的映像不太可能出现在所有的Cache服务器上，从而提供Cache集群系统的使用效率。

LBLCR算法先根据请求的目标IP地址找出该目标IP地址对应的服务器组；按“最小连接”原则从该服务器组中选出一台服务器，若服务器没有超载，将请求发送到该服务器；若服务器超载；则按“最小连接”原则从整个集群中选出一台服务器，将该服务器加入到服务器组中，将请求发送到该服务器。同时，当该服务器组有一段时间没有被修改，将最忙的服务器从服务器组中删除，以降低复制的程度。LBLCR调度算法的流程如下：

LBLCR调度算法流程

假设有一组服务器S = {S0, S1, ..., Sn-1}，W(Si)表示服务器Si的权值，

C(Si)表示服务器Si的当前连接数。ServerSet[dest_ip]是一个关联变量，表示

目标IP地址所对应的服务器集合，一般来说它是通过Hash表实现的。WLC(S)表示

在集合S中的加权最小连接服务器，即前面的加权最小连接调度；WGC(S)表示在

集合S中的加权最大连接服务器。Now为当前系统时间，lastmod表示集合的最近

修改时间，T为对集合进行调整的设定时间。

if (ServerSet[dest_ip] is NULL) then {

n = WLC(S);

if (n is NULL) then return NULL;

add n into ServerSet[dest_ip];

} else {

n = WLC(ServerSet[dest_ip]);

if ((n is NULL) OR

(n is dead) OR

(C(n) > W(n) AND

there is a node m with C(m) < W(m)/2))) then {

n = WLC(S);

if (n is NULL) then return NULL;

add n into ServerSet[dest_ip];

} else

if (|ServerSet[dest_ip]| > 1 AND

Now - ServerSet[dest_ip].lastmod > T) then {

m = WGC(ServerSet[dest_ip]);

remove m from ServerSet[dest_ip];

}

ServerSet[dest_ip].lastuse = Now;

if (ServerSet[dest_ip] changed) then

ServerSet[dest_ip].lastmod = Now;

return n;

此外，对关联变量ServerSet[dest_ip]也要进行周期性的垃圾回收（Garbage Collection），将过期的目标IP地址到服务器关联项进行回收。过期的关联项是指哪些当前时间（实现时采用系统时钟节拍数jiffies）减去最近使用时间（lastuse）超过设定过期时间的关联项，系统缺省的设定过期时间为24小时。

目标地址散列调度（Destination Hashing Scheduling）

目标地址散列调度（Destination Hashing Scheduling）算法也是针对目标IP地址的负载均衡，但它是一种静态映射算法，通过一个散列（Hash）函数将一个目标IP地址映射到一台服务器。

目标地址散列调度算法先根据请求的目标IP地址，作为散列键（Hash Key）从静态分配的散列表找出对应的服务器，若该服务器是可用的且未超载，将请求发送到该服务器，否则返回空。该算法的流程如下：

目标地址散列调度算法流程

假设有一组服务器S = {S0, S1, ..., Sn-1}，W(Si)表示服务器Si的权值，

C(Si)表示服务器Si的当前连接数。ServerNode[]是一个有256个桶（Bucket）的

Hash表，一般来说服务器的数目会运小于256，当然表的大小也是可以调整的。

算法的初始化是将所有服务器顺序、循环地放置到ServerNode表中。若服务器的

连接数目大于2倍的权值，则表示服务器已超载。

n = ServerNode[hashkey(dest_ip)];

if ((n is dead) OR

(W(n) == 0) OR

(C(n) > 2*W(n))) then

return NULL;

return n;

在实现时，我们采用素数乘法Hash函数，通过乘以素数使得散列键值尽可能地达到较均匀的分布。所采用的素数乘法Hash函数如下：

素数乘法Hash函数

static inline unsigned hashkey(unsigned int dest_ip)

{

return (dest_ip* 2654435761UL) & HASH_TAB_MASK;

}

其中，2654435761UL是2到2^32 (4294967296)间接近于黄金分割的素数，

(sqrt(5) - 1) / 2 = 0.618033989

2654435761 / 4294967296 = 0.618033987

源地址散列调度（Source Hashing Scheduling）

源地址散列调度（Source Hashing Scheduling）算法正好与目标地址散列调度算法相反，它根据请求的源IP地址，作为散列键（Hash Key）从静态分配的散列表找出对应的服务器，若该服务器是可用的且未超载，将请求发送到该服务器，否则返回空。它采用的散列函数与目标地址散列调度算法的相同。它的算法流程与目标地址散列调度算法的基本相似，除了将请求的目标IP地址换成请求的源IP地址，所以这里不一一叙述。

在实际应用中，源地址散列调度和目标地址散列调度可以结合使用在防火墙集群中，它们可以保证整个系统的唯一出入口。

参考：LVS中文站点 http://zh.linuxvirtualserver.org