DDIA读书笔记 6 数据分区

6 数据分区

6.1 数据分区与数据复制

  • 面对海量数据集或者非常高的查询压力,只使用复制技术还不够,需要将数据分区,也称为分片
  • 分区通常和复制结合使用

6.2 键值数据的分区

  • 目标:将数据和查询负载均匀分布在所有节点上。
  • 负载不均匀的情况称为倾斜,基于范围区间和基于哈希值的方法都无法有效解决该问题,需要开发者在应用层解决

6.2.1 基于关键字区间分区

  • 基于关键字的区间范围来分区
  • 代表产品:Bigtable,HBase,RethinkDB和2.4版本之前的MongoDB
  • 每个分区内按照关键字排序保存

6.2.2 基于关键字哈希值分区

  • Cassandra和MongoDB使用MD5,V欧蓝德默认图使用Fowler-Noll-Vo函数

  • 缺点:失去了良好的区间查询特性。即使关键字相邻,但经过哈希之后会分散到不同的分区上

  • 一致性哈希(补充)

    • 传统哈希的缺点:当需要变更节点数时,这时大部分的数据都需要迁移,重新映射,数据的迁移成本是非常高的。

    • 简介:一致哈希算法是对 2^32 进行取模运算。你可以想象下,一致哈希算法,将整个哈希值空间组织成一个虚拟的圆环,也就是哈希环。在一致哈希中,你可以通过执行哈希算法,将节点映射到哈希环上,比如选择节点的主机名作为参数执行 c-hash(),那么每个节点就能确定其在哈希环上的位置了。

      当需要对指定 key 的值进行读写的时候,你可以通过下面 2 步进行寻址:首先,将 key 作为参数执行 c-hash() 计算哈希值,并确定此 key 在环上的位置;然后,从这个位置沿着哈希环顺时针“行走”,遇到的第一节点就是 key 对应的节点。

    • 一致性哈希如何避免传统哈希的问题:在一致哈希算法中,如果某个节点宕机不可用了,那么受影响的数据仅仅是,会寻址到此节点和前一节点之间的数据。比如当节点 C 宕机了,受影响的数据是会寻址到节点 B 和节点 C 之间的数据(例如 key-03),寻址到其他哈希环空间的数据(例如 key-01),不会受到影响。一致哈希算法具有较好的容错性和可扩展性一致哈希是一种特殊的哈希算法,在使用一致哈希算法后,节点增减变化时只影响到部分数据的路由寻址,也就是说我们只要迁移部分数据,就能实现集群的稳定了。

    • 冷热不均和虚拟节点:在一致哈希中,如果节点太少,容易因为节点分布不均匀造成数据访问的冷热不均,也就是说大多数访问请求都会集中少量几个节点上。

      就是对每一个服务器节点计算多个哈希值,在每个计算结果位置上,都放置一个虚拟节点,并将虚拟节点映射到实际节点

6.3 分区与二级索引

  • 二级索引通常不能唯一标识一条记录,而是用来加速特定值的查询

6.3.1 基于文档分区的二级索引

  • 二级索引:值->文档ID

  • 每个分区独立维护自己分区内的文档,而不关心其他分区中的数据

  • 查询时,需要将查询发送到所有的分区,然后合并返回的结果,也称为分散/聚集。缺点是读延迟大
    在这里插入图片描述

6.3.2 基于词条的二级索引分区

  • 对所有数据构建全局索引,而不是每个分区维护自己的本地索引,全局索引也进行分区(区间或哈希)
    在这里插入图片描述

  • 优点:比起基于词条的分区,读取更高效,但写入复杂,需要更新单个文档后再更新二级索引

  • 对二级索引的更新通常是异步的

6.4 分区再平衡

  • 固定数量分区
    • 首先创建远超实际节点数的分区数,然后为每个节点分配多个分区。如果集群中新增节点,该新节点可以从每个现有的节点上匀走几个分区,知道分区再次达到全局平衡
    • 产品:Riak,ElasticSearch,Couchbase,Voldemort,Redis的集群模式
    • 分区数量一般固定,这样使得相关操作更简单
  • 动态分区
    • 对于区间范围的分区策略,当边界设置得有问题,可能出现所有数据都集中在一个分区而其他分区为空。此时可以动态创建分区。但分区数据过大时,拆分为两个分区。如果分区数据小,则将这些进行合并(哈希分区策略也支持这种拆分和合并)
  • 按节点比例分区
    • 分区数和集群节点数成正比关系,每个节点具有固定数量的分区,而不是集群内有固定数量分区
  • 自动与手动再平衡操作
    • 自动方便,但会出现一些问题,比如将大量数据从一个节点转移到另一个及诶单,导致网络或目标节点负载过大
    • 最好是管理员接入,虽然慢一些,但可以防止意外。比如Couchbase,Riak和Voldemort会自动生成一个分区分配的建议方案,但需要管理员的确认才能生效

6.5 请求路由

  • 当客户端发送请求时,如何知道连接哪个节点,包括再平衡后

  • 属于服务发现问题

  • 处理策略:

    • 允许客户端连接到任意(Any而不是all)节点,如果该节点有数据就返回,否则该节点将请求转发给下一个节点。
    • 请求先发送到路由层,作为一个分区感知的负载均衡器,路由层负责将请求转发到对应的分区节点
    • 客户端感知分区和节点的分配关系,客户端直接连接目标节点
  • 核心问题:作出路由决策的组件(节点,路由层或者客户端),如何知道分区与节点的对应关系及其变化情况?

    • 方法一:使用zookeeper

      • 依靠独立的协议服务如zookeeper,节点都注册到zookeeper上,zookeeper维护了分区到节点的最终映射关系

      • 路由层或者分区感知的客户端可以向zookeeper订阅消息,一旦分区发生改变,或者增删节点,zookeeper会主动通知路由层或客户端,使路由信息保持最新
        在这里插入图片描述

    • 方法二:使用gossip协议同步集群状态的变化。

      • 请求可以发送到任何节点,由该节点负责将其转发到目标分区节点
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 内容概要 《计算机试卷1》是一份综合性的计算机基础和应用测试卷,涵盖了计算机硬件、软件、操作系统、网络、多媒体技术等多个领域的知识点。试卷包括单选题和操作应用两大类,单选题部分测试学生对计算机基础知识的掌握,操作应用部分则评估学生对计算机应用软件的实际操作能力。 ### 适用人群 本试卷适用于: - 计算机专业或信息技术相关专业的学生,用于课程学习或考试复习。 - 准备计算机等级考试或职业资格认证的人士,作为实战演练材料。 - 对计算机操作有兴趣的自学者,用于提升个人计算机应用技能。 - 计算机基础教育工作者,作为教学资源或出题参考。 ### 使用场景及目标 1. **学习评估**:作为学校或教育机构对学生计算机基础知识和应用技能的评估工具。 2. **自学测试**:供个人自学者检验自己对计算机知识的掌握程度和操作熟练度。 3. **职业发展**:帮助职场人士通过实际操作练习,提升计算机应用能力,增强工作竞争力。 4. **教学资源**:教师可以用于课堂教学,作为教学内容的补充或学生的课后练习。 5. **竞赛准备**:适合准备计算机相关竞赛的学生,作为强化训练和技能检测的材料。 试卷的目标是通过系统性的题目设计,帮助学生全面复习和巩固计算机基础知识,同时通过实际操作题目,提高学生解决实际问题的能力。通过本试卷的学习与练习,学生将能够更加深入地理解计算机的工作原理,掌握常用软件的使用方法,为未来的学术或职业生涯打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值