Linux四层负载均衡——LVS

心平浪静BO

已于 2023-04-04 10:43:04 修改

阅读量1.8k

点赞数

分类专栏：运维文章标签： linux 负载均衡 lvs

于 2023-03-06 17:02:11 首次发布

原文链接：https://www.coonote.com/lvs/lvs-introduct.html

版权

运维专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、LVS简介

1、简介：

LVS是Linux Virtual Server的简称，也就是Linux虚拟服务器，是一个由章文嵩博士发起的自由软件项目。

现在LVS已经是Linux标准内核的一部分，在Linux2.4内核以前，使用LVS时必须重新编译内核以支持LVS功能模块，但是从Linux2.4内核心之后，已经完全内置了LVS的各个功能模块，无需给内核打任何补丁，可以直接使用LVS提供的各种功能。

使用LVS技术要达到的目标是：通过LVS提供的负载均衡技术和Linux操作系统实现一个高性能，高可用的服务器群集，它具有良好的可靠性、可扩展性和可操作性。从而以低廉的成本实现最优的服务性能。

2、LVS结构组成

LVS集群架构：

负载调度器（load balancer/ Director），它是整个集群对外面的前端机，负责将客户的请求发送到一组后端服务器上执行，而客户端则认为返回来是同一个IP(通常把这个IP叫成为虚拟ip或VIP)
服务器池（server pool/ Realserver），是一组真正执行客户请求的服务器，执行的服务一般有WEB、MAIL、FTP和DNS等。
共享存储（shared storage），它为服务器池提供一个共享的存储区，这样很容易使得服务器池拥有相同的内容，提供相同的服务

LVS软件组成：

ipvs(ip virtual server)：一段代码工作在内核空间，叫ipvs，是真正生效实现调度的代码。
ipvsadm：另外一段是工作在用户空间，叫ipvsadm，负责为ipvs内核框架编写规则，定义谁是集群服务，而谁是后端真实的服务器(Real Server)。

3、LVS相关术语

DS：Director Server。指的是前端负载均衡器节点
RS：Real Server。后端真实的工作服务器
VIP：向外部直接面向用户请求，作为用户请求的目标的IP地址，即lvs物理机外网ip。
DIP：Director Server IP，主要用于和内部主机通讯的IP地址，即lvs物理机内网ip。
RIP：Real Server IP，后端服务器的IP地址
CIP：Client IP，访问客户端的IP地址，即请求的来源ip。

二、LVS体系架构

1、LVS集群组成

使用LVS架设的服务器集群系统有三个部分组成：

最前端的负载均衡层（Loader Balancer）
中间的服务器群组层，用Server Array表示，
最底层的数据共享存储层，用Shared Storage表示。

在用户看来所有的应用都是透明的，用户只是在使用一个虚拟服务器提供的高性能服务。

2、LVS的各个层次的详细介绍

a、前端负载均衡层

Load Balancer层，位于整个集群系统的最前端。由一台或多台负载调度器（Director Server）组成，LVS模块就安装在调度器上。调度器的作用类似于路由器，它含有完成LVS功能所设定的路由表，通过这些路由表把用户的请求分发给Array Server层的应用服务器（真实服务器）。同时在调度器上，还要安装对真实服务器服务的监控模块Ldirectord，Ldirectord模块用于检测各个真实服务器的健康状况，在真实服务器不可用时把它从LVS路由表剔除，恢复时重新加入。

Director Server是整个LVS集群系统的核心。Linux2.6的内核默认支持LVS功能。

b、中间服务器群组层

Array Server层，由一组实际运行的应用服务器/真实服务器组成，真实服务器（Real Server）可以是web服务器，mail服务器，DNS服务器，FTP服务器，视频服务器中的一个或多个。每个真实服务器之间可以通过高速LAN或分布在各地的WAN相连接。在实际应用中，调度器也可以兼任真实服务器的角色。

c、底层数据共享存储层

SharedStorage层，为所有Real Server提供共享存储空间和内容一致性的存储区域。在物理上，一般由磁盘阵列设备组成，为了提供内容一致性，一般通过NFS网络文件系统共享数据，但是NFS在繁忙的业务系统中，性能不是很好，此时可以采用集群文件系统，例如Red Hat的GFS文件系统，oracle提供的OCFS2文件系统。

三、LVS工作原理

1、当用户向负载均衡调度器（VS或者叫LB）发起请求，调度器将请求发往至内核空间。

2、PREROUTING链首先会接收到用户请求，判断目标IP确定是本机IP，将数据包发往INPUT链。

3、IPVS是工作在INPUT链上的，当用户请求到达INPUT时，IPVS会将用户请求和自己已定义好的集群服务进行比对，如果用户请求的就是定义的集群服务，那么此时IPVS会强行修改数据包里的目标IP地址及端口，并将新的数据包发往POSTROUTING链。

4、POSTROUTING链接收数据包后发现目标IP地址刚好是自己的后端服务器，那么此时通过选路，将数据包最终发送给后端的服务器。

四、LVS 负载均衡模式

LVS 的负责均衡有四种常用模式，分别为DR模式、NAT模式、TUN模式、FULLNAT模式。

LVS/NAT： NAT模式。修改请求报文的目标IP,多目标IP的DNAT。
LVS/DR：DirectRouting（直接路由）。操纵封装新的MAC地址。
LVS/TUN：Tunneling（隧道）。在原请求IP报文之外新加一个IP首部。
LVS/FULLNAT：Full NAT。修改请求报文的源和目标IP。

1、NAT模式

VS/NAT是一种最简单的方式，所有的RealServer只需要将自己的网关指向Director即可。客户端可以是任意操作系统，但此方式下，一个Director能够带动的RealServer比较有限。在VS/NAT的方式下，Director也可以兼为一台RealServer。

①、当用户请求到达Director Server，此时请求的数据报文会先到内核空间的PREROUTING链。此时报文的源IP为CIP，目标IP为VIP。
②、PREROUTING检查发现数据包的目标IP是本机，将数据包送至INPUT链
③、IPVS比对数据包请求的服务是否为集群服务，若是，修改数据包的目标IP地址为后端服务器IP，然后将数据包发至POSTROUTING链。此时报文的源IP为CIP，目标IP为RIP
④、POSTROUTING链通过选路，将数据包发送给Real Server
⑤、Real Server比对发现目标为自己的IP，开始构建响应报文发回给Director Server。此时报文的源IP为RIP，目标IP为CIP
⑥、Director Server在响应客户端前，此时会将源IP地址修改为自己的VIP地址，然后响应给客户端。此时报文的源IP为VIP，目标IP为CIP

工作流程：

用户请求LVS到达director，director将请求的报文的目的IP由VIP改为RIP，同时将报文的目标端口也改为realserver的相应端口，最后将报文发送到realserver上，realserver将通过网关路由到director，将数据返回给director，director在相应客户端之前，把数据包的源ip由RIP改为VIP，然后响应用户，将数据发送给用户。

特点

NAT模式修改的是目的ip，可根据目的ip找到realserver，所以VIP和RIP不需要在同一个网段内。
NAT的包的进出都需要经过LVS，所以LVS可能会成为一个系统的瓶颈问题。

2、FULLNAT模式

FULLNAT模式和NAT相似，只是数据包在过lvs时，不只修改目的ip，源ip也一块修改了。

特点

FULLNAT模式也不需要DIP和RIP在同一网段。
FULLNAT和NAT相比的话：会保证RS的回包一定可到达LVS。
FULLNAT需要更新源IP，所以性能正常比NAT模式下降10%。

3、DR模式

VS/DR方式是通过改写请求报文中的MAC地址部分来实现的。Director和RealServer必需在同一个局域网内（相同机房）。 RealServer上绑定的VIP配置在各自Non-ARP的网络设备上(如lo或tunl),Director的VIP地址对外可见，而RealServer的VIP对外是不可见的。RealServer的ip可为内网IP, 也可为公网IP。

①、当用户请求到达Director Server，此时请求的数据报文会先到内核空间的PREROUTING链。此时报文的源IP为CIP，目标IP为VIP。
②、PREROUTING检查发现数据包的目标IP是本机，将数据包送至INPUT链
③、IPVS比对数据包请求的服务是否为集群服务，若是，将请求报文中的源MAC地址修改为DIP的MAC地址，将目标MAC地址修改RIP的MAC地址，然后将数据包发至POSTROUTING链。此时的源IP和目的IP均未修改，仅修改了源MAC地址为DIP的MAC地址，目标MAC地址为RIP的MAC地址
④、由于DS和RS在同一个网络中，所以是通过二层来传输。POSTROUTING链检查目标MAC地址为RIP的MAC地址，那么此时数据包将会发至Real Server。
⑤、RS发现请求报文的MAC地址是自己的MAC地址，就接收此报文。处理完成之后，将响应报文通过lo接口传送给eth0网卡然后向外发出。此时的源IP地址为VIP，目标IP为CIP
⑥、响应报文最终送达至客户端

工作流程：

用户请求LVS到达director，director将请求的报文的目的MAC地址改为后端的realserver的MAC地址，目的IP为VIP(不变)，源IP为client IP地址(不变)，然后director通过ARP广播将报文发送到realserver，realserver检测到目的地址为自己本地的VIP，如果在同一网段，将请求直接返回给用户，如果用户跟realserver不在同一个网段，则需要通过网关返回给用户。

特点

RS跟Director Server必须有一个网卡在同一个物理网络中
所有的请求报文经由Director Server，但响应报文不经过Director Server
所有的real server机器上必须配置VIP地址（通常绑定lo）

4、TUN模式

IP隧道（IP tunneling）是将一个IP报文封装在另一个IP报文的技术，这可以使得目标为一个IP地址的数据报文能被封装和转发到另一个IP地址。IP隧道技术亦称为IP封装技术（IP encapsulation）。IP隧道主要用于移动主机和虚拟私有网络（Virtual Private Network），在其中隧道都是静态建立的，隧道一端有一个IP地址，另一端也有唯一的IP地址。

①、当用户请求到达Director Server，此时请求的数据报文会先到内核空间的PREROUTING链。此时报文的源IP为CIP，目标IP为VIP。

②、PREROUTING检查发现数据包的目标IP是本机，将数据包送至INPUT链

③、IPVS比对数据包请求的服务是否为集群服务，若是，在请求报文的首部再次封装一层IP报文，封装源IP为为DIP，目标IP为RIP。然后发至POSTROUTING链。此时源IP为DIP，目标IP为RIP

④、POSTROUTING链根据最新封装的IP报文，将数据包发至RS（因为在外层封装多了一层IP首部，所以可以理解为此时通过隧道传输）。此时源IP为DIP，目标IP为RIP

⑤、RS接收到报文后发现是自己的IP地址，就将报文接收下来，拆除掉最外层的IP后，会发现里面还有一层IP首部，而且目标是自己的lo接口VIP，那么此时RS开始处理此请求，处理完成之后，通过lo接口送给eth0网卡，然后向外传递。此时的源IP地址为VIP，目标IP为CIP

⑥、响应报文最终送达至客户端

工作流程：

用户请求LVS到达director，director通过IP-TUN加密技术将请求报文的包封装到一个新的IP包里面，目的IP为VIP(不变)，然后director将报文发送到realserver，realserver基于IP-TUN解密，然后解析出来包的目的为VIP，检测网卡是否绑定了VIP，绑定了就处理这个包，如果在同一个网段，将请求直接返回给用户，否则通过网关返回给用户；如果没有绑定VIP就直接丢掉这个包。

特点

TUNNEL必须在所有的realserver上绑定VIP
realserver直接把包发给client
隧道模式运维起来会比较难，所以一般不用
不支持端口映射
RIP、VIP、DIP全是公网地址

五、LVS 负载均衡算法

LVS有两种类型的调度算法，其一就是静态的调度算法，这种算法一经实现，后续就不会发生变化，是既定的规则，后续数据包的流转都会按照这种规则进行按部就班的流转；其二就是动态的调度算法，这种算法是基于网络状况，或者后端服务器的状况，连接的状况等来进行实时的调整，算法的规则会根据实际情况而发生一定的变化。

1、常用的静态调度算法：

1.RR：轮询调度（Round Robin）

调度器通过”轮询”调度算法将外部请求按顺序轮流分配到集群中的真实服务器上，它均等地对待每一台服务器，而不管服务器上实际的连接数和系统负载｡

2.WRR：加权轮询（Weight RR）

调度器通过“加权轮询”调度算法根据真实服务器的不同处理能力来调度访问请求。这样可以保证处理能力强的服务器处理更多的访问流量。调度器可以自动问询真实服务器的负载情况,并动态地调整其权值。

3.DH：目标地址散列调度（Destination Hash ）

根据请求的目标IP地址，作为散列键(HashKey)从静态分配的散列表找出对应的服务器，若该服务器是可用的且未超载，将请求发送到该服务器，否则返回空。

4.SH：源地址 hash（Source Hash）

源地址散列”调度算法根据请求的源IP地址，作为散列键(HashKey)从静态分配的散列表找出对应的服务器，若该服务器是可用的且未超载，将请求发送到该服务器，否则返回空｡

2、常用的动态调度算法：

1.LC：最少链接（Least Connections）

调度器通过”最少连接”调度算法动态地将网络请求调度到已建立的链接数最少的服务器上。如果集群系统的真实服务器具有相近的系统性能，采用”最小连接”调度算法可以较好地均衡负载。

2.WLC：加权最少连接(默认采用的就是这种)（Weighted Least Connections）

在集群系统中的服务器性能差异较大的情况下，调度器采用“加权最少链接”调度算法优化负载均衡性能，具有较高权值的服务器将承受较大比例的活动连接负载｡调度器可以自动问询真实服务器的负载情况,并动态地调整其权值。

3.SED：最短延迟调度（Shortest Expected Delay ）

在WLC基础上改进，Overhead = （ACTIVE+1）*256/加权，不再考虑非活动状态，把当前处于活动状态的数目+1来实现，数目最小的，接受下次请求，+1的目的是为了考虑加权的时候，非活动连接过多缺陷：当权限过大的时候，会倒置空闲服务器一直处于无连接状态。

4.NQ永不排队/最少队列调度（Never Queue Scheduling NQ）

无需队列。如果有台 realserver的连接数＝0就直接分配过去，不需要再进行sed运算，保证不会有一个主机很空间。在SED基础上无论+几，第二次一定给下一个，保证不会有一个主机不会很空闲着，不考虑非活动连接，才用NQ，SED要考虑活动状态连接，对于DNS的UDP不需要考虑非活动连接，而httpd的处于保持状态的服务就需要考虑非活动连接给服务器的压力。

5.LBLC：Locality-Based Least connection基于本地的最小连接
基于局部性的最少连接算法

是针对请求报文的目标IP地址的负载均衡调度。主要用于Cache集群系统，因为Cache中客户请求报文的目标IP会不断发生改变。所以该算法根据请求的目标IP地址找出该目标IP地址最近使用的Real Server，若该服务器是可用的且没有超载，就会使用“最少链接”来挑选一台可用的服务器，将请求发送到该服务器｡使用场景：根据负载状态实现正向代理。

6.LBLCR：Replicated lblc带复制功能的lblc，是dh算法的一种改进

带复制功能的lblc也是针对目标IP地址做负载均衡。主要是根据请求的目标IP找到目标IP对应的服务器组，根据“最小连接”原则，从服务器组中挑选一台服务器。若服务器没有超载，将请求发送到该服务器；若服务器超载，则按“最小连接”原则从这个集群中选出一台服务器，将该服务器加入到服务器组中，将请求发送到该服务器｡同时，当该服务器组有一段时间没有被修改，将最忙的服务器从服务器组中删除，以降低复制的程度。

后续实验请查阅我的博客：Linux四层负载均衡——LVS构建实验_心平浪静BO的博客-CSDN博客