负载均衡(Load Balance),顾名思义就是将请求/数据均匀分摊到多个操作单元上执行,负载均衡的关键在于均匀。通俗的讲就是统一分配请求的设备,负载均衡会统一接收全部请求,然后按照设定好的算法将这些请求分配给这个负载均衡组中的所有成员,以此来实现请求(负载)的均衡分配,在分布式系统里,需要应付高并发和快处理,使用负载均衡技术就显得尤为重要。这方面用的登峰造极者当属淘宝。下面介绍常用的负载均衡方案。
常见互联网分布式架构,依次都会有客户端层、反向代理nginx层、站点层、服务层、数据层.这些层从上到下必须满足每个下游可以被多个上游调用,做到每一个上游均匀的调用每一个下游,就能做到将请求/数据均匀分摊到多个操作单元上执行。
1.【客户端层】到【反向代理层】的负载均衡,是通过“DNS轮询”实现的:DNS-server对于一个域名配置了多个解析ip,每次DNS解析请求来访问DNS-server,会轮询返回这些ip,保证每个ip的解析概率是相同的。这些ip就是nginx的外网ip,以做到每台nginx的请求分配也是均衡的。
2.反向代理层】到【站点层】的负载均衡,是通过“nginx”实现的。通过修改nginx.conf,可以实现多种负载均衡策略:
1)请求轮询:和DNS轮询类似,请求依次路由到各个web-server
2)最少连接路由:哪个web-server的连接少,路由到哪个web-server
3)ip哈希:按照访问用户的ip哈希值来路由web-server,只要用户的ip分布是均匀的,请求理论上也是均匀的,ip哈希均衡方法可以做到,同一个用户的请求固定落到同一台web-server上,此策略适合有状态服务,例如session(58沈剑备注:可以这么做,但强烈不建 议这么做,站点层无状态是分布式架构设计的基本原则之一,session最好放到数据层存储)
3.【站点层】到【服务层】的负载均衡,是通过“服务连接池”实现的。
上游连接池会建立与下游服务多个连接,每次请求会“随机”选取连接来访问下游服务
4.【数据层】的负载均衡
在数据量很大的情况下,由于数据层(db,cache)涉及数据的水平切分,所以数据层的负载均衡更为复杂一些,它分为“数据的均衡”,与“请求的均衡”。
数据的均衡是指:水平切分后的每个服务(db,cache),数据量是差不多的。
请求的均衡是指:水平切分后的每个服务(db,cache),请求量是差不多的。
业内常见的水平切分方式有这么几种:
1)按照存储数量切分:
每一个数据服务,存储一定范围的数据,比如user0服务,存储id从1-1w,user1服务,存储id从1w-2w,以此类推,这个方案的好处是:
a.规则简单,service只需判断一下uid范围就能路由到对应的存储服务
b.数据均衡性较好
c.比较容易扩展,可以随时加一个uid[2kw,3kw]的数据服务
不足是:
a.请求的负载不一定均衡,有可能某个服务里是慢慢满满的请求,某些服务里很少或者没有请求,大量的服务请求压力会更大.
2) 按照id哈希水平切分:
每一个数据服务,存储某个key值hash后的部分数据, user0服务,存储偶数uid数据, user1服务,存储奇数uid数据,这个方案的好处是:
a,规则简单,service只需对uid进行hash能路由到对应的存储服务
b.数据均衡性较好
c.请求均匀性较好
不足是:
a.不容易扩展,扩展一个数据服务,hash方法改变时候,可能需要进行数据迁移
因此可以归纳下:
负载均衡(Load Balance)是分布式系统架构设计中必须考虑的因素之一,它通常是指,将请求/数据【均匀】分摊到多个操作单元上执行,负载均衡的关键在于【均匀】。
(1)【客户端层】到【反向代理层】的负载均衡,是通过“DNS轮询”实现的.
(2)【反向代理层】到【站点层】的负载均衡,是通过“nginx”实现的.
(3)【站点层】到【服务层】的负载均衡,是通过“服务连接池”实现的.
(4)【数据层】的负载均衡,要考虑“数据的均衡”与“请求的均衡”两个点,常见的方式有“按照范围水平切分”与“hash水平切分”.
几种简单的负载均衡算法及其Java代码实现 : http://www.cnblogs.com/szlbm/p/5588555.html
解析nginx负载均衡 : http://baidutech.blog.51cto.com/4114344/1033718/
一分钟了解负载均衡的一切 : http://www.oschina.net/news/77156/load-balance
负载均衡器技术Nginx和F5的优缺点对比 : http://blog.csdn.net/chabale/article/details/8956717
用NginX+keepalived实现高可用的负载均衡 : http://www.cnblogs.com/holbrook/archive/2012/10/25/2738475.html
常见互联网分布式架构,依次都会有客户端层、反向代理nginx层、站点层、服务层、数据层.这些层从上到下必须满足每个下游可以被多个上游调用,做到每一个上游均匀的调用每一个下游,就能做到将请求/数据均匀分摊到多个操作单元上执行。
1.【客户端层】到【反向代理层】的负载均衡,是通过“DNS轮询”实现的:DNS-server对于一个域名配置了多个解析ip,每次DNS解析请求来访问DNS-server,会轮询返回这些ip,保证每个ip的解析概率是相同的。这些ip就是nginx的外网ip,以做到每台nginx的请求分配也是均衡的。
2.反向代理层】到【站点层】的负载均衡,是通过“nginx”实现的。通过修改nginx.conf,可以实现多种负载均衡策略:
1)请求轮询:和DNS轮询类似,请求依次路由到各个web-server
2)最少连接路由:哪个web-server的连接少,路由到哪个web-server
3)ip哈希:按照访问用户的ip哈希值来路由web-server,只要用户的ip分布是均匀的,请求理论上也是均匀的,ip哈希均衡方法可以做到,同一个用户的请求固定落到同一台web-server上,此策略适合有状态服务,例如session(58沈剑备注:可以这么做,但强烈不建 议这么做,站点层无状态是分布式架构设计的基本原则之一,session最好放到数据层存储)
3.【站点层】到【服务层】的负载均衡,是通过“服务连接池”实现的。
上游连接池会建立与下游服务多个连接,每次请求会“随机”选取连接来访问下游服务
4.【数据层】的负载均衡
在数据量很大的情况下,由于数据层(db,cache)涉及数据的水平切分,所以数据层的负载均衡更为复杂一些,它分为“数据的均衡”,与“请求的均衡”。
数据的均衡是指:水平切分后的每个服务(db,cache),数据量是差不多的。
请求的均衡是指:水平切分后的每个服务(db,cache),请求量是差不多的。
业内常见的水平切分方式有这么几种:
1)按照存储数量切分:
每一个数据服务,存储一定范围的数据,比如user0服务,存储id从1-1w,user1服务,存储id从1w-2w,以此类推,这个方案的好处是:
a.规则简单,service只需判断一下uid范围就能路由到对应的存储服务
b.数据均衡性较好
c.比较容易扩展,可以随时加一个uid[2kw,3kw]的数据服务
不足是:
a.请求的负载不一定均衡,有可能某个服务里是慢慢满满的请求,某些服务里很少或者没有请求,大量的服务请求压力会更大.
2) 按照id哈希水平切分:
每一个数据服务,存储某个key值hash后的部分数据, user0服务,存储偶数uid数据, user1服务,存储奇数uid数据,这个方案的好处是:
a,规则简单,service只需对uid进行hash能路由到对应的存储服务
b.数据均衡性较好
c.请求均匀性较好
不足是:
a.不容易扩展,扩展一个数据服务,hash方法改变时候,可能需要进行数据迁移
因此可以归纳下:
负载均衡(Load Balance)是分布式系统架构设计中必须考虑的因素之一,它通常是指,将请求/数据【均匀】分摊到多个操作单元上执行,负载均衡的关键在于【均匀】。
(1)【客户端层】到【反向代理层】的负载均衡,是通过“DNS轮询”实现的.
(2)【反向代理层】到【站点层】的负载均衡,是通过“nginx”实现的.
(3)【站点层】到【服务层】的负载均衡,是通过“服务连接池”实现的.
(4)【数据层】的负载均衡,要考虑“数据的均衡”与“请求的均衡”两个点,常见的方式有“按照范围水平切分”与“hash水平切分”.
负载均衡技术涉猎很多,有兴趣可以去看看下面的文章。
几种简单的负载均衡算法及其Java代码实现 : http://www.cnblogs.com/szlbm/p/5588555.html
解析nginx负载均衡 : http://baidutech.blog.51cto.com/4114344/1033718/
一分钟了解负载均衡的一切 : http://www.oschina.net/news/77156/load-balance
负载均衡器技术Nginx和F5的优缺点对比 : http://blog.csdn.net/chabale/article/details/8956717
用NginX+keepalived实现高可用的负载均衡 : http://www.cnblogs.com/holbrook/archive/2012/10/25/2738475.html