ZooKeeper学习——CAP与BASE理论详解

CAP与BASE理论

在学习大数据之前,首先要理解的两个理念——集群、分布式。

集群

        简单的说,集群就是一件事让一群人去做,即一个任务部署在多个服务器,每个服务器都能独立完成该任务。举个鲜明的例子,饭店后厨有三个厨师,他们都能洗菜、切菜、炒菜,每个人都能独立完成整个流程。

分布式

        分布式就是一群人协作干一件事,每人都有自己的分工。即一个任务拆分成若干个子任务,由若干服务器分别完成这些子任务,每个服务器只能完成某个特定的子任务。例如:后厨有三个人分别负责洗菜、切菜、炒菜,分工明确。这就是分布式。

        集群强调在多台服务器位置集中,并且容易统一管理,而分布式没有具体要求,不论放在哪个位置,只要通过网络连接起来就行。集群是通过调高单位时间内执行的任务数来提升效率,而分布式是以缩短单个任务的执行时间来提升销量。

CAP原则

        CAP原则,指的是在一个分布式系统中,Consistency(一致性),Availability(可用性),Partition tolerance(分区容错性)三者只能取其二,不可兼得。

一致性,系统在执行某一操作之后,各节点之间仍然保持数据状态一致。更新操作执行成功后所所有的用户都应该读到最新的值,这样的系统被认为是具有强一致性的。

可用性,每一个操作总是能在一定的时间之内返回结果。一定的时间指的是在可以容忍的时间范围内返回结果。结果是可以成功可以失败但是一定要有返回的结果。

分区容错性,分布式集群在遇到任何网络分区故障时,仍然能够对完提供满足一致性和可用性的服务,除非整个网络环境都发生了故障。这里可以理解为是否可以对数据进行分区,这是考虑到性能和可伸缩性。

取舍策略:

  • CA without P:如果不要求 P(不允许分区),则 C(强一致性)和 A(可用性)是可以保证的。但放弃 P 的同时也就意味着放弃了系统 的扩展性,也就是分布式节点受限,没办法部署子节点,这是违背分布式系统设计的初衷的。
  • CP without A:如果不要求 A(可用),相当于每个请求都需要在服务器之间保持强一致,而 P(分区)会导致同步时间无限延长(也就 是等待数据同步完才能正常访问服务),一旦发生网络故障或者消息丢失等情况,就要牺牲用户的体验,等待所有数据全部一致了之后 再让用户访问系统。设计成 CP 的系统其实不少,最典型的就是分布式数据库。对于分布式数据库来说,数据的一致性是最基本的要 求,因为如果连这个标准都达不到,那么直接采用关系型数据库就好,没必要再浪费资源来部署分布式数据库。
  • AP without C:要高可用并允许分区,则需放弃一致性。一旦产生分区,节点之间可能会失去联系,为了高可用,每个节点只能用本地 数据提供服务,而这样会导致全局数据的不一致性。典型的应用就如某米的抢购手机场景,可能前几秒你浏览商品的时候页面提示是有 库存的,当你选择完商品准备下单的时候,系统提示你下单失败,商品已售完。这其实就是先在 A(可用性)方面保证系统可以正常的 服务,然后在数据的一致性方面做了些牺牲,虽然多少会影响一些用户体验,但也不至于造成用户购物流程的严重阻塞。

BASE理论

Base(基本服务可用) 当系统发生故障或者流量激增时,牺牲部分服务保证基本服务可用。

Soft(软状态) 当系统发生故障或者流量激增时,牺牲部分保基本。必须集群大于二分之一服务器写入(少数服从多数)

Eventual consistency(最终一致性) 系统不能一直处于软状态,当获取到脏数据,触发后续逻辑时,再进一步同步。定时触发同步,比如系统闲事进行数据同步。

        总的来说,BASE 理论面向的是大型高可用可扩展的分布式系统,和传统事务的 ACID 是相反的,它完全不同于 ACID 的强一致性模型,而 是通过牺牲强一致性来获得可用性,并允许数据在一段时间是不一致的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值