使用环境
当大量用户访问服务时,服务器即要处理大量的数据请求又要进行大量的数据调度,此时服务器的处理能力就成了瓶颈。提高这个瓶颈可采用两种方式:1.向上扩展,即增强单台服务器的硬件设备处理能力。2.向外扩展,即增加服务器设备数量。
由于单台设备的性能总是有限的,而且大量增加设备也会大大提高经济成本,所以必须采用负载均衡技术来降低成本。LVS(Linux Virtual Servers,Linux虚拟服务器)使用负载均衡技术将多台服务器组成一个虚拟服务器来进行业务处理,性价比极高。
一、LVS处理原理
当大量用户访问服务时,VS(Virtual Server)负责数据调度,根据请求报文的目标IP和目标协议及端口将用户请求数据分发到某个处理数据的服务器(RS,Real Server)上,根据具体的调度算法来挑选RS。VS只负责调度,RS只负责数据处理,大大降低了各个服务器的处理压力。
在LVS中还可以通过搭配集群和分布式一起使用来进一步提高处理效率。
二、集群和分布式
集群:同一个业务系统,部署在多台服务器上,集群中,每一台服务器实现的功能没有差别,数据 和代码都是一样的。
分布式:一个业务被拆成多个子业务,或者本身就是不同的业务,部署在多台服务器上。分布式中,每一台服务器实现的功能是有差别的,数据和代码也是不一样的,分布式每台服务器功能加起来才是完整的业务。
分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率, 对于大型网站,访问用户很多,实现一个群集,在前面部署一个负载均衡服务器,后面几台服务器完成同一业务。如果有用户进行相应业务访问时,负载均衡器根据后端哪台服务器的负载情况,决定由给哪一台去完成响应,并且某台服务器垮了,其它的服务器可以顶上来。分布式的每一个节点,都完成不同的业务,如果一个节点垮了,那这个业务可能就会失败。
三、LVS中常用名词概念
VS:Virtual Server 负责调度的服务器
RS:Real Server 负责真正提供服务的服务器
CIP:Client IP 客户端IP
VIP: Virtual serve IP VS对外提供的IP
DIP: Director IP VS内部的IP
RIP: Real server IP RS的IP
访问流程:CIP <--> VIP == DIP <--> RIP
四、LVS四种工作模式
lvs-nat: 修改请求报文的目标IP,多目标IP的DNAT
lvs-dr: 操纵封装新的MAC地址
lvs-tun: 在原请求IP报文之外新加一个IP首部
lvs-fullnat: 修改请求报文的源和目标IP
4.1nat模式
本质是多目标IP的DNAT,通过将请求报文中的目标地址和目标端口修改为某挑出的RS的RIP和 PORT实现转发。
RIP和DIP应在同一个IP网络,且应使用私网地址;
RS的网关要指向DIP;
请求报文和响应报文都必须经由Director转发,Director易于成为系统瓶颈;
支持端口映射,可修改请求报文的目标PORT;
VS必须是Linux系统,RS可以是任意OS系统。
4.1.1nat模式数据处理逻辑:
1.客户端发送访问请求,请求数据包中含有请求来源(CIP),访问目标地址(VIP),访问目标端口(80)
2.VS服务器接收到访问请求做DNAT把请求数据包中的目的地由VIP换成RS的RIP和响应端口(9000)
3.RS1响应请求,发送响应数据包,包中的响应报文为数据来源(RIP1),响应目标(CIP),响应端口(9000)
4.VS服务器接收到响应数据包,改变包中的数据来源(RIP1-->VIP),响应目标端口(9000-->80)
5.VS服务器把修改过报文的响应数据包回传给客户端
6.lvs的NAT模式接收和返回客户端数据包时都要经过lvs的调度机,所以lvs的调度机容易阻塞
客户请求到达vip后进入PREROUTING,在没有ipvs的时候应该进入本机INPUT,当ipvs存在后访问请求在通过PREROUTING后被ipvs结果并作nat转发。
因为ipvs的作用点是在PREROUTING和INPUT链之间,所以如果在PREROUTING中设定的规则会干扰ipvs的工作。所以在做lvs时要把iptables的火墙策略全清理掉。
4.2DR模式
Direct Routing,直接路由,LVS默认模式,应用最广泛,通过为请求报文重新封装一个MAC首部进行转发,源MAC是DIP所在的接口的MAC,目标MAC是某挑选出的RS的RIP所在接口的MAC地址;源IP/PORT,以及目标IP/PORT均保持不变。
4.2.2DR模式数据处理逻辑
在DR模式中,RS和VS上都配有VIP,所以RS接收到访问请求后不需要回传给VS调度器,直接把回传数据发送给client。
4.2.3数据具体传输过程:
- 客户端发送数据帧到LVS,数据帧中包含源IP即客户端IP(CIP),目标IP(VIP),源MAC(CIP-MAC),目标MAC(VIP-MAC)
- LVS中调度机VS接收到数据帧后把帧中的VIP的MAC修改为RS1的MAC,此时帧中的数据为客户端IP+客户端 的MAC+VIP+RS1的MAC
- RS1得到2中的数据包后做出响应回传数据包,数据包中的内容为VIP+RS1的MAC+客户端IP+客户端IP的 MAC,回传途中数据包就不需要经过VS,降低VS的处理压力。
4.3TUN模式
转发方式:不修改请求报文的IP首部(源IP为CIP,目标IP为VIP),而在原IP报文之外再封装一个IP首部(源IP是DIP,目标IP是RIP),将报文发往挑选出的目标RS;RS直接响应给客户端(源IP是VIP,目标IP 是CIP)
4.3.1TUN模式数据处理逻辑:
- 当用户请求到达Director Server,此时请求的数据报文会先到内核空间的PREROUTING链。 此时报文的源IP为CIP,目标IP为VIP 。
- PREROUTING检查发现数据包的目标IP是本机,将数据包送至INPUT链。
- IPVS在请求报文的首部再次封装一层IP报文,封装源IP为为DIP,目标IP为RIP。然后发至POSTROUTING链。 此时源IP为DIP,目标IP为RIP。
- POSTROUTING链根据最新封装的IP报文,将数据包发至RS(因为在外层封装多了一层IP首部,所以可以理解为此时通过隧道传输)。 此时源IP为DIP,目标IP为RIP。
- RS接收到报文后发现是自己的IP地址,就将报文接收下来,拆除掉最外层的IP后,发现内部的IP是自己的 VIP,那么此时RS开始处理此请求,处理完成之后,将数据封装向外传递。 此时的源IP地址为VIP,目标IP为CIP
- 响应报文最终送达至客户端
4.3.2TUN模式数据传输过程:
1.客户端发送请求数据包,包内有源IP+vip+dport
2.到达vs调度器后对客户端发送过来的数据包重新封装添加IP报文头,新添加的IP报文头中包含 TUNSRCIP(DIP)+TUNDESTIP(RSIP1)并发送到RS1
3.RS收到VS调度器发送过来的数据包做出响应,生成的响应报文中包含SRCIP(VIP)+DSTIP(CIP) +port,响应数据包通过网络直接回传给client.
4.3.3TUN中的注意事项:
1.DIP, VIP, RIP都应该是公网地址
2.RS的网关一般不能指向DIP
3.请求报文要经由Director,但响应不能经由Director
4.不支持端口映射
5.RS的OS须支持隧道功能
五、LVS的调度算法
根据其调度时是否考虑各RS当前的负载状态被分为两种:静态方法和动态方法
5.1静态方法:
仅根据算法本身进行调度,不考虑RS的负载情况
1、rr:轮询(round robin) 将请求按依次循环的方式调度到不同的RS上。轮询算法假设所有的服务器处理请求的能力都是一样的,调度器会将所有的请求平均分配给每个RS,不管后端 RS 配置和处理能力,非常均衡地分发下去。这个调度的缺点是,不管后端服务器的繁忙程度是怎样的,调度器都会讲请求依次发下去。如果A服务器上的请求很快请求完了,而B服务器的请求一直持续着,将会导致B服务器一直很忙,而A很闲,这样便没起到均衡的作用。当RS配置有差别时不推荐使用。
2、wrr:加权轮询(weighted rr)给RS设置权重,权重越高,那么被分发的请求数越多。是一种人为的根据每台RS的性能来设置的权重。
3、sh:源地址哈希(Source Hashing) 即将来自同一个ip的请求发给后端的同一个服务器,如果后端服务器工作正常没有超负荷的话。这可以解决session共享的问题,但是这种方法存在缺陷,例如很多企业、社区、学校都是共用的一个IP,这将导致请求分配的不均衡。
4、dh:目标地址哈希(Destination Hashing) 第一次轮询调度至RS,后续将发往同一个目标地址的请求始终转发至第一次挑中的RS,典型使用场景是正向代理缓存场景中的负载均衡,如:宽带运营商
5.2动态方法:
主要根据每RS当前的负载状态及调度算法进行调度Overhead=value较小的RS将被调度
1.LC:least connections(最少链接法)
适用于长连接应用Overhead(负载值)=activeconns(活动链接数) x 256+inactiveconns(非活动链接数)
2.WLC:Weighted LC(权重最少链接)
默认调度方法Overhead=(activeconns x 256+inactiveconns)/weight
3.SED:Shortest Expection Delay
初始连接高权重优先Overhead=(activeconns+1+inactiveconns) x 256/weight 但是,当node1的权重为1,node2的权重为10,经过运算前几次的调度都会被node2承接
4、NQ:Never Queue,第一轮均匀分配,后续采用SED分配
5、LBLC:Locality-Based LC,动态的DH算法,使用场景:根据负载状态实现正向代理
6、LBLCR:LBLC with Replication,带复制功能的LBLC,解决LBLC负载不均衡问题,从负载重的复制到负载轻的RS
六、LVS配置NAT模式实验:
实验环境:
主机 | 网卡模式 | IP |
1台客户机 | NAT | 172.25.250.100 |
1台VS | NAT和仅主机 | NAT:172.25.250.200 仅主机:192.168.30.200 |
2台RS | 仅主机 | RS1:192.168.30.10 RS2:192.168.30.20 |
客户机将访问RS上的http服务,由VS将访问请求调度到RS
配置步骤:
- 将各主机网络环境配置正确,两台RS网关要设置为VS的DIP,意为RS中回传的数据交由VS转发
- VS上是两个不同网段,所以需要在VS主机上开启内核路由功能实现内部通信
- VS上安装LVS软件:ipvsadm
- VS上添加具体策略
- RS上配置http服务
- 关闭防火墙,设置服务开机启动
- 客户机测试
具体代码:
VS:
echo net.ipv4.ip_forward=1 >> /etc/sysctl.conf
sysctl -p
yum install ipvsadm -y
ipvsadm -A -t 172.25.250.200:80 -s rr //
ipvsadm -a -t 172.25.250.200:80 -r 192.168.30.10:80 -m
ipvsadm -a -t 172.25.250.200:80 -r 192.168.30.20:80 -m
ipvsadm --save > /etc/sysconfig/ipvsadm
systemctl enable --now ipvsadm
RS1:
yum install httpd -y
echo This is webserver1 IP is 10 > /var/www/html/index.html
systemctl enable --now httpd
RS2:
yum install httpd -y
echo This is webserver2 IP is 20 > /var/www/html/index.html
systemctl enable --now httpd
客户机:
for i in {1..10}
do
curl 172.25.250.200
done
七、LVS配置DR模式实验:
实验环境:
主机 | 网卡模式 | IP | 网关 |
1台客户机 | NAT | 172.25.250.100 | 172.25.250.200 |
1台路由 | NAT和仅主机 | NAT:172.25.250.200 仅主机:192.168.30.200 | —— |
2台RS | 仅主机 | RS1:192.168.30.10 RS2:192.168.30.20 VIP:192.168.30.100 | 192.168.30.200 |
1台VS | 仅主机 | DIP:192.168.30.50 VIP:192.168.30.100 | 192.168.30.200 |
配置步骤:
- 将各主机网络环境配置正确,LVS设备的环回IP均设置为192.168.30.100/32,充当VIP;LVS内设备网关均要设置为router的IP192.168.30.200,意为回传的数据交由路由器转发
- 路由主机上开启内核路由功能实现内部通信
- VS上安装LVS软件:ipvsadm
- VS上添加具体策略
- RS上配置http服务
- DR模型中各主机均配有VIP,所以在RS上需要关闭vip响应,仅VS上VIP响应
解决响应问题可选方法有三种:
(1)在前端网关做静态绑定
(2)在各RS使用arptables
例如:发进来的 ARP 包中,如果源 IP 是 192.168.1.1,源 MAC 不是 00:0C:29:C7:01:13 的,丢弃。规则如下:
arptables -A INPUT --src-ip 192.168.1.1 --src-mac ! 00:0C:29:C7:01:13 -j DROP
(3)在各RS修改内核参数,来限制arp响应和通告的级别
限制响应级别:arp_ignore
0:默认值,表示可使用本地任意接口上配置的任意地址进行响应
1:仅在请求的目标IP配置在本地主机的接收到请求报文的接口上时,才给予响应 限制通告级别:arp_announce
0:默认值,把本机所有接口的所有信息向每个接口的网络进行通告
1:尽量避免将接口信息向非直接连接网络进行通告
2:必须避免将接口信息向非本网络进行通告
7.关闭防火墙,设置服务开机启动
8.客户机测试
具体代码:
Router:
echo net.ipv4.ip_forward=1 >> /etc/sysctl.conf
sysctl -p
具体网络配置
VS:
yum install ipvsadm -y
ipvsadm -A -t 172.25.250.200:80 -s wrr
ipvsadm -a -t 172.25.250.200:80 -r 192.168.30.10:80 -g -w 2
ipvsadm -a -t 172.25.250.200:80 -r 192.168.30.20:80 -g -w 1
ipvsadm --save > /etc/sysconfig/ipvsadm
systemctl enable --now ipvsadm
RS1:
yum install httpd -y
echo This is webserver1 IP is 10 > /var/www/html/index.html
systemctl enable --now httpd
echo 1 >/proc/sys/net/ipv4/conf/all/arp_ignore
echo 2 >/proc/sys/net/ipv4/conf/all/arp_announce
echo 2 >/proc/sys/net/ipv4/conf/lo/arp_announce
echo 1 >/proc/sys/net/ipv4/conf/lo/arp_ignore
RS2:
yum install httpd -y
echo This is webserver2 IP is 20 > /var/www/html/index.html
systemctl enable --now httpd
echo 1 >/proc/sys/net/ipv4/conf/all/arp_ignore
echo 2 >/proc/sys/net/ipv4/conf/all/arp_announce
echo 2 >/proc/sys/net/ipv4/conf/lo/arp_announce
echo 1 >/proc/sys/net/ipv4/conf/lo/arp_ignore
客户机:
for i in {1..10}
do
curl 172.25.250.200
done
通过抓包来查看mac转变过程:
客户机访问LVS,路由器接收到请求,将访问请求发送到VS
VS接收到请求,调用RS2提供服务
RS2接收到数据后,将数据直接回传,不经过VS。
整个过程仅涉及到mac的变化,IP地址并没有变化。
八、LVS部署相关介绍:
LVS软件信息介绍:
程序包:ipvsadm
服务名称: ipvsadm.service
主程序:/usr/sbin/ipvsadm
规则保存工具:/usr/sbin/ipvsadm-save
规则重载工具:/usr/sbin/ipvsadm-restore
配置文件:/etc/sysconfig/ipvsadm-config
ipvs调度规则文件:/etc/sysconfig/ipvsadm
命令介绍:
分为集群管理命令和对集群中的RS管理命令
集群管理命令
以上述实验中使用的命令ipvsadm -A -t 172.25.250.200:80 -s wrr 为例:
-A | 添加 |
-E | 删除 |
-t | tcp服务 |
-u | udp服务 |
172.25.250.200:80 集群地址及访问端口
-s | 调度算法: rr 轮询 wrr 加权轮询 sh 源地址哈希 dh 目标地址哈希 …… |
-p | 连接超时时间 |
-f | 防火墙标记 |
集群中的RS管理命令
以上述实验中使用的命令 ipvsadm -a -t 172.25.250.200:80 -r 192.168.30.10:80 -g -w 2 为例:
-a | 添加 |
-e | 删除 |
-t | tcp服务 |
-u | udp服务 |
172.25.250.200:80 集群地址及访问端口
-r | RS地址 |
-w | 设定权重 |
-g | DR模式 |
-m | nat模式 |
-i | tun模式 |
ipvsadm -D -t|u|f service-address 删除
ipvsadm –C 清空
ipvsadm –R 重载
ipvsadm -S [-n] 保存
ipvsadm -Ln 查看策略
九、轮询算法中可能会遇到的错误:
以http和https为例,当我们在RS中同时开放80和443端口,那么默认控制是分开轮询的,这样我们就出现了一个轮询错乱的问题 当我第一次访问80被轮询到RS1后下次访问443仍然可能会被轮询到RS1上
解决方法:
采用防火墙标记
在VS上为端口做标记:iptables -t mangle -A PREROUTING -d 172.25.250.200 -p tcp -m multiport --dports 80,443 -j MARK –ste-mark 6666
其中172.25.250.200为VIP地址,tcp为端口类型,80,443为要标记的端口,6666为设定的标记号。
在VS上使用标记:ipvsadm -a -f 6666 -r 192.168.30.10 -g
十、持久链接问题:
在我们客户上网过程中有很多情况下需要和服务器进行交互,客户需要提交响应信息给服务器,如果单纯的进行调度会导致客户填写的表单丢失。例如:当客户首次访问购物网站时往购物车添加了部分商品,当再次访问该网站时购物车中的商品数据丢失。
解决方案:
为了解决这个问题我们可以用sh算法,但是sh算法比较简单粗暴,可能会导致调度失衡。所以可用利用LVS中的-p选项,设置链接时长。在进行调度时,不管用什么算法,只要相同源过来的数据包我们就把他的访问记录在内存中,也就是把这个源的主机调度到了那个RS上,如果在短期(-p默认为360S)内同源再来访问我仍然按照内存中记录的调度信息,把这个源的访问还调度到同一台RS上。
lvs最多只能支持到第四层传输层,主要通过IP地址和端口号进行负载均衡。想要基于URL、HTTP头等应用层信息进行负载均衡,提供更细粒度的控制的话可用使用haproxy,可点击链接参考下篇haproxy文章。