ZooKeeper学习——CAP与BASE理论详解

起飞~~

已于 2023-10-21 08:33:37 修改

阅读量118

点赞数 1

文章标签： zookeeper big data

于 2023-10-19 21:13:25 首次发布

本文链接：https://blog.csdn.net/qq_59454352/article/details/132725646

版权

CAP与BASE理论

在学习大数据之前，首先要理解的两个理念——集群、分布式。

集群

简单的说，集群就是一件事让一群人去做，即一个任务部署在多个服务器，每个服务器都能独立完成该任务。举个鲜明的例子，饭店后厨有三个厨师，他们都能洗菜、切菜、炒菜，每个人都能独立完成整个流程。

分布式

分布式就是一群人协作干一件事，每人都有自己的分工。即一个任务拆分成若干个子任务，由若干服务器分别完成这些子任务，每个服务器只能完成某个特定的子任务。例如：后厨有三个人分别负责洗菜、切菜、炒菜，分工明确。这就是分布式。

集群强调在多台服务器位置集中，并且容易统一管理，而分布式没有具体要求，不论放在哪个位置，只要通过网络连接起来就行。集群是通过调高单位时间内执行的任务数来提升效率，而分布式是以缩短单个任务的执行时间来提升销量。

CAP原则

CAP原则，指的是在一个分布式系统中，Consistency（一致性），Availability（可用性），Partition tolerance（分区容错性）三者只能取其二，不可兼得。

一致性，系统在执行某一操作之后，各节点之间仍然保持数据状态一致。更新操作执行成功后所所有的用户都应该读到最新的值，这样的系统被认为是具有强一致性的。

可用性，每一个操作总是能在一定的时间之内返回结果。一定的时间指的是在可以容忍的时间范围内返回结果。结果是可以成功可以失败但是一定要有返回的结果。

分区容错性，分布式集群在遇到任何网络分区故障时，仍然能够对完提供满足一致性和可用性的服务，除非整个网络环境都发生了故障。这里可以理解为是否可以对数据进行分区，这是考虑到性能和可伸缩性。

取舍策略：

CA without P：如果不要求 P（不允许分区），则 C（强一致性）和 A（可用性）是可以保证的。但放弃 P 的同时也就意味着放弃了系统的扩展性，也就是分布式节点受限，没办法部署子节点，这是违背分布式系统设计的初衷的。
CP without A：如果不要求 A（可用），相当于每个请求都需要在服务器之间保持强一致，而 P（分区）会导致同步时间无限延长（也就是等待数据同步完才能正常访问服务），一旦发生网络故障或者消息丢失等情况，就要牺牲用户的体验，等待所有数据全部一致了之后再让用户访问系统。设计成 CP 的系统其实不少，最典型的就是分布式数据库。对于分布式数据库来说，数据的一致性是最基本的要求，因为如果连这个标准都达不到，那么直接采用关系型数据库就好，没必要再浪费资源来部署分布式数据库。
AP without C：要高可用并允许分区，则需放弃一致性。一旦产生分区，节点之间可能会失去联系，为了高可用，每个节点只能用本地数据提供服务，而这样会导致全局数据的不一致性。典型的应用就如某米的抢购手机场景，可能前几秒你浏览商品的时候页面提示是有库存的，当你选择完商品准备下单的时候，系统提示你下单失败，商品已售完。这其实就是先在 A（可用性）方面保证系统可以正常的服务，然后在数据的一致性方面做了些牺牲，虽然多少会影响一些用户体验，但也不至于造成用户购物流程的严重阻塞。