CAP与BASE理论
在学习大数据之前,首先要理解的两个理念——集群、分布式。
集群
简单的说,集群就是一件事让一群人去做,即一个任务部署在多个服务器,每个服务器都能独立完成该任务。举个鲜明的例子,饭店后厨有三个厨师,他们都能洗菜、切菜、炒菜,每个人都能独立完成整个流程。
分布式
分布式就是一群人协作干一件事,每人都有自己的分工。即一个任务拆分成若干个子任务,由若干服务器分别完成这些子任务,每个服务器只能完成某个特定的子任务。例如:后厨有三个人分别负责洗菜、切菜、炒菜,分工明确。这就是分布式。
集群强调在多台服务器位置集中,并且容易统一管理,而分布式没有具体要求,不论放在哪个位置,只要通过网络连接起来就行。集群是通过调高单位时间内执行的任务数来提升效率,而分布式是以缩短单个任务的执行时间来提升销量。
CAP原则
CAP原则,指的是在一个分布式系统中,Consistency(一致性),Availability(可用性),Partition tolerance(分区容错性)三者只能取其二,不可兼得。
一致性,系统在执行某一操作之后,各节点之间仍然保持数据状态一致。更新操作执行成功后所所有的用户都应该读到最新的值,这样的系统被认为是具有强一致性的。
可用性,每一个操作总是能在一定的时间之内返回结果。一定的时间指的是在可以容忍的时间范围内返回结果。结果是可以成功可以失败但是一定要有返回的结果。
分区容错性,分布式集群在遇到任何网络分区故障时,仍然能够对完提供满足一致性和可用性的服务,除非整个网络环境都发生了故障。这里可以理解为是否可以对数据进行分区,这是考虑到性能和可伸缩性。
取舍策略:
- CA without P:如果不要求 P(不允许分区),则 C(强一致性)和 A(可用性)是可以保证的。但放弃 P 的同时也就意味着放弃了系统 的扩展性,也就是分布式节点受限,没办法部署子节点,这是违背分布式系统设计的初衷的。
- CP without A:如果不要求 A(可用),相当于每个请求都需要在服务器之间保持强一致,而 P(分区)会导致同步时间无限延长(也就 是等待数据同步完才能正常访问服务),一旦发生网络故障或者消息丢失等情况,就要牺牲用户的体验,等待所有数据全部一致了之后 再让用户访问系统。设计成 CP 的系统其实不少,最典型的就是分布式数据库。对于分布式数据库来说,数据的一致性是最基本的要 求,因为如果连这个标准都达不到,那么直接采用关系型数据库就好,没必要再浪费资源来部署分布式数据库。
- AP without C:要高可用并允许分区,则需放弃一致性。一旦产生分区,节点之间可能会失去联系,为了高可用,每个节点只能用本地 数据提供服务,而这样会导致全局数据的不一致性。典型的应用就如某米的抢购手机场景,可能前几秒你浏览商品的时候页面提示是有 库存的,当你选择完商品准备下单的时候,系统提示你下单失败,商品已售完。这其实就是先在 A(可用性)方面保证系统可以正常的 服务,然后在数据的一致性方面做了些牺牲,虽然多少会影响一些用户体验,但也不至于造成用户购物流程的严重阻塞。
BASE理论
Base(基本服务可用) 当系统发生故障或者流量激增时,牺牲部分服务保证基本服务可用。
Soft(软状态) 当系统发生故障或者流量激增时,牺牲部分保基本。必须集群大于二分之一服务器写入。(少数服从多数)
Eventual consistency(最终一致性) 系统不能一直处于软状态,当获取到脏数据,触发后续逻辑时,再进一步同步。定时触发同步,比如系统闲事进行数据同步。
总的来说,BASE 理论面向的是大型高可用可扩展的分布式系统,和传统事务的 ACID 是相反的,它完全不同于 ACID 的强一致性模型,而 是通过牺牲强一致性来获得可用性,并允许数据在一段时间是不一致的。