数据密集型应用系统设计--数据分区

最新推荐文章于 2024-07-18 17:29:14 发布

Erick_Lv

最新推荐文章于 2024-07-18 17:29:14 发布

阅读量463

点赞数

分类专栏：数据密集型系统文章标签：数据密集型系统数据分区

本文链接：https://blog.csdn.net/qq_35976351/article/details/114005456

版权

数据密集型系统专栏收录该内容

3 篇文章 1 订阅

订阅专栏

数据分区与数据复制

分区的目的一般是提高可扩展性、容错性和集群吞吐，同一个分区会在多个节点中都有副本。

容错性：一个节点挂掉，则这个节点上的分区，在其他节点上都有副本，可以查询其他的节点
可扩展性：新增节点时，会有多个节点把自己的部分数据给新的节点，这些节点传输的数据比较少
提高集群吞吐：数据和查询复杂会均匀的分配在所有的节点上

键-值数据的分区

一般来说，数据分区都是通过特定的key来检索对应的value，因此k-v分区是最主流的方式。

关键字区间分区
每个分区负责一个或者多个关键字区间，一般根据关键字区间值的数量和分区的个数决定。分区内部的关键字可以按照字典序等排列。这种方式的索引效率很高；缺点在于，某些访问模式下，一些key会成为热点，导致负载不均衡。

关键字哈希值分区
每个key对应一个唯一的hash值，然后通过对hash值取余等，映射到对应的分区上。优点在于可以均匀的分配key到对应的区间上，但是丧失了区间查询的特性。mint存储就是这种模式，不过每个分区都有多个对等的副本。

注意一致性Hash技术

组合索引分区
综合关键字&Hash分区的特性

负载倾斜和热点问题
某些情况下，会存在部分key的热点问题，这种一般在应用层解决。比如微博的大v有很多粉丝等。这种情况下，简单的技术是，对关键字的开头或者结尾添加一个随机数，这样写的时候，就可以把key均匀的分布到不同的节点中；但是缺陷是，查询的时候需要查询 $10^N$ 个关键字， $N$ 是关键字的位数。