【001】集群学习笔记-简介

DeusExMachina_V

已于 2022-06-10 17:26:14 修改

阅读量165

点赞数

分类专栏： Linux 集群学习笔记文章标签：学习服务器网络

于 2022-06-06 10:56:43 首次发布

原文链接：http://linuxvirtualserver.org/zh/index.html

版权

Linux 集群学习笔记专栏收录该内容

3 篇文章 1 订阅

订阅专栏

【001】集群学习笔记-简介

1 集群
- 三大主流软件负载均衡器对比
2 LVS

1 集群

多台服务器实现单台服务器的功能，但性能更好

如何提升服务器性能?
1. 增加服务器硬件如CPU、内存或换配置更高的服务器来提升单机的性能
很快会达到瓶颈, 而且成本和性能不成正比
2. 应用分离
主机A(Apache) + 主机B(MySQL)
依然会达到瓶颈
3. 采用集群技术

集群种类	内容	软硬件
HA	高可用(High Availability)又称双机 Active/Standby,即一个提供服务,另一个保持等待状态,至少两台服务器	keepalived 基于vrrp协议,常用于实现前端调度器的高可用, 轻量级, 不需要共享存储；corosync+pacemaker 实现的是Service的高可用, 需要共享存储, 一般用于多个节点；Heartbeat 是基于主机或网络的服务的高可用方式, 不常用
LB	是负载均衡（Load Balancing）,即多个服务器同时提供相同的服务,并分担压力,但是至少三台服务器(含一台调度器);	硬件: F5 BIG-IP 性能好,成本高软件: LVS Nginx Haproxy SLB
HPC	简单的说,高性能计算(High-Performance Computing)是计算机科学的一个分支,它致力于开发超级计算机,研究并行算法和开发相关软件。高性能集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中,如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。高性能集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。

整个集群提供一个唯一的访问入口,对最终用户透明！！！

三大主流软件负载均衡器对比

(LVS — Nginx — Haproxy)
LVS：
1、抗负载能力强。抗负载能力强、性能高,能达到F5硬件的60%；对内存和cpu资源消耗比较低
2、工作在网络4层,通过vrrp协议转发(仅作分发之用),具体的流量由linux内核处理,因此没有流量的产生。
3、稳定性、可靠性好,自身有完美的热备方案；(如：LVS+Keepalived)
4、应用范围比较广,可以对所有应用做负载均衡；
5、不支持正则处理,不能做动静分离。
6、支持负载均衡算法：rr(轮循)、wrr(带权轮循)、lc(最小连接)、wlc(权重最小连接)
7、配置复杂,对网络依赖比较大,稳定性很高。

Nginx：
1、工作在网络的7层之上,可以针对http应用做一些分流的策略,比如针对域名、目录结构；
2、Nginx对网络的依赖比较小,理论上能ping通就就能进行负载功能；
3、Nginx安装和配置比较简单,测试起来比较方便；
4、也可以承担高的负载压力且稳定,一般能支撑超过1万次的并发；
5、对后端服务器的健康检查,只支持通过端口来检测,不支持通过url来检测。
6、Nginx对请求的异步处理可以帮助节点服务器减轻负载；
7、Nginx仅能支持http、https和Email协议,这样就在适用范围较小。
8、不支持Session的直接保持,但能通过ip_hash来解决。
9、支持负载均衡算法：Round-robin(轮循),Weight-round-robin(带权轮循),Ip-hash(Ip哈希)
10、Nginx还能做Web服务器即Cache功能。

HAProxy：
1、支持两种代理模式：TCP(四层)和HTTP(七层),支持虚拟主机；
2、能够补充Nginx的一些缺点比如Session的保持,Cookie的引导等工作
3、支持url检测,后端的服务器出问题的检测会有很好的帮助。
4、更多的负载均衡策略比如：动态加权轮循(Dynamic Round Robin),加权源地址哈希(Weighted Source Hash),加权URL哈希和加权参数哈希(Weighted Parameter Hash)已经实现
5、单纯从效率上来讲HAProxy更会比Nginx有更出色的负载均衡速度。
6、HAProxy可以对Mysql进行负载均衡,对后端的DB节点进行检测和负载均衡。
7、支持负载均衡算法：Round-robin(轮循)、Weight-round-robin(带权轮循)、source(原地址保持)、RI(请求URL)、rdp-cookie(根据cookie)
8、不能做Web服务器和Cache。

三大主流软件负载均衡器适用业务场景：
1、网站建设初期,可以选用Nginx/HAproxy作为反向代理负载均衡(或者流量不大都可以不选用负载均衡),因为其配置简单,性能也能满足一般的业务场景。如果考虑到负载均衡器是有单点问题,可以采用Nginx+Keepalived/HAproxy+Keepalived避免负载均衡器自身的单点问题。
2、网站并发达到一定程度之后,为了提高稳定性和转发效率,可以使用LVS、毕竟LVS比Nginx/HAproxy要更稳定,转发效率也更高。不过维护LVS对维护人员的要求也会更高,投入成本也更大。

注：Nginx与Haproxy比较：Nginx支持七层,用户量最大,稳定性比较可靠。Haproxy支持四层和七层,支持更多的负载均衡算法,支持session保存等。具体选型看使用场景,目前来说Haproxy由于弥补了一些Nginx的缺点用户量也不断在提升。

衡量一个负载均衡服务器主要考量三个指标:

session rate
此项指标非常重要,它决定了一个load balancer 能不能分发所有接受的请求。这项指标通常是由CPU性能决定。测量指标的大小跟传输的每个对象的大小有关,通常用空对象来测试,Session rates 在 100,000 sessions/s 左右,使用 Xeon E5 在 2014测试。
session concurrency
该指标与前一指标相关联。这一指标与服务器内存和系统可以处理的文件描述符数量有关。通常每个session占用34KB,即大概3W个session占用1GB内存空间,实际上,socket buffer也会占用内存空间,2W个session socket占用1GB内存。
data forwarding rate
这一指标与 session rate 相对立,它的衡量单位通常是 Megabytes/s (MB/s), 或者 Gigabits/s (Gbps)。传输较大的对象有利于该指标的提升,因为较大的对象传输可以减少session建立和关闭浪费的时间。而测量session rate 则在传输小对象时有利于指标提升。haproxy 在2014年使用 Xeon E5 测试成绩为40 Gbps。

2 LVS

首先向章文嵩先生致敬

Linux Virtual Server,也就是Linux虚拟服务器，,称LVS

LVS中文文档：http://linuxvirtualserver.org/zh/index.html

2.1 LVS 概述

LVS是Linux内核的一部分,因此性能高
Linux虚拟服务器(即分发器或调度器director):
它不真正提供服务,但它接受客户的访问,为整个集群提供一个唯一的入口。虚拟服务器再和真实服务器通信。
真实服务器(Real Server):它真正提供服务,集群中每个Real Server可以是一台物理主机,也可以是虚拟机。
LVS相关术语:

DS ：Director Server。指的是前端负载均衡器节点。
RS ：Real Server。后端真实的工作服务器。
VIP：向外部直接面向用户请求,作为用户请求的目标的IP地址。
DIP：Director Server IP,主要用于和内部主机通讯的IP地址。
RIP：Real Server IP,后端服务器的IP地址。
CIP：Client IP,客户端的IP地址。

2.2 LVS三种模式

VS/NAT：网络地址转换模式, 进站/出站的数据流量经过分发器
VS/DR ：直接路由模式,只有进站的数据流量经过分发器(数据链路层负载均衡,因为他修改的是目的mac地址)
VS/TUN：隧道模式,只有进站的数据流量经过分发器
full-nat

2.3 LVS基本工作原理

在这里插入图片描述
1. 当用户(源IP：CIP)向负载均衡调度器（Director Server)发起请求,调度器将请求发往至内核空间
2. PREROUTING链首先会接收到用户请求,判断目标IP确定是本机IP,将数据包发往INPUT链
3. IPVS是工作在INPUT链上的,当用户请求到达INPUT时,IPVS会将用户请求和自己已定义好的集群服务进行比对,如果用户请求的就是定义的集群服务,那么此时IPVS会强行修改数据包里的目标IP地址及端口（根据调度算法）,并将新的数据包发往POSTROUTING链
4. POSTROUTING链接收数据包后发现目标IP地址刚好是自己的后端服务器,那么此时通过选路,将数据包最终发送给后端的服务器

2.4 LVS 三种工作模式原理以及优缺点比较

2.4.1 NAT模式(VS-NAT)

原理：就是把客户端发来的数据包的IP头的目的地址,在负载均衡器上换成其中一台RS的IP地址,并发至此RS来处理,RS处理完成后把数据交给经过负载均衡器,负载均衡器再把数据包的原IP地址改为VIP即可｡期间,无论是进来的流量,还是出去的流量,都必须经过负载均衡器｡

优点：集群中的物理服务器可以使用任何支持TCP/IP操作系统,只有负载均衡器需要一个合法的IP地址。

缺点：扩展性有限。当服务器节点(普通PC服务器)增长过多时,负载均衡器将成为整个系统的瓶颈,因为所有的请求包和应答包的流向都经过负载均衡器。当服务器节点过多时,大量的数据包都交汇在负载均衡器那,速度就会变慢！

2.4.2 直接路由模式(VS-DR)

原理：负载均衡器和RS都使用同一个IP对外服务｡但只有DR对ARP请求进行响应,所有RS对本身这个IP的ARP请求保持静默｡也就是说,网关会把对这个服务IP的请求全部定向给DR,而DR收到数据包后根据调度算法,找出对应的RS,把目的MAC地址改为RS的MAC(因为IP一致)并将请求分发给这台RS｡这时RS收到这个数据包,处理完成之后,由于IP一致,可以直接将数据返给客户,处理后直接返回给客户端｡由于负载均衡器要对二层包头进行改换,所以负载均衡器和RS之间必须在一个广播域,也可以简单的理解为在同一台交换机上｡

优点：和TUN(隧道模式)一样,负载均衡器也只是分发请求,应答包通过单独的路由方法返回给客户端。与VS-TUN相比,VS-DR这种实现方式不需要隧道结构,因此可以使用大多数操作系统做为物理服务器。

缺点：(不能说缺点,只能说是不足)要求负载均衡器的网卡必须与物理网卡在一个物理段上。

2.4.3 IP隧道模式(VS-TUN)

原理：首先要知道,互联网上的大多Internet服务的请求包很短小,而应答包通常很大。那么隧道模式就是,把客户端发来的数据包,封装一个新的IP头标记(仅目的IP)发给RS,RS收到后,先把数据包的头解开,还原数据包,处理后,直接返回给客户端,不需要再经过负载均衡器｡注意,由于RS需要对负载均衡器发过来的数据包进行还原,所以说必须支持IPTUNNEL协议｡所以,在RS的内核中,必须编译支持IPTUNNEL这个选项

优点：负载均衡器只负责将请求包分发给后端节点服务器,而RS将应答包直接发给用户。所以,减少了负载均衡器的大量数据流动,负载均衡器不再是系统的瓶颈,就能处理很巨大的请求量,这种方式,一台负载均衡器能够为很多RS进行分发。而且跑在公网上就能进行不同地域的分发。

缺点：隧道模式的RS节点需要合法IP,这种方式需要所有的服务器支持”IP Tunneling”(IP Encapsulation)协议,服务器可能只局限在部分Linux系统上。