Database Partition

最新推荐文章于 2023-11-14 10:34:00 发布

weixin_37633964

最新推荐文章于 2023-11-14 10:34:00 发布

阅读量273

点赞数

一般来说，数据库的繁忙体现在：不同用户需要访问数据集中的不同部分，这种情况下，我们把数据的各个部分存放在不同的服务器/节点中，每个服务器/节点负责自身数据的读取与写入操作，以此实现横向扩展，这种技术成为分片，即sharding。
这里主要分为两大类，

一类是哈希分片(hash based partitionning)
一类是范围分片(range based partitioning)

1.哈希分片(hash based partitionning)

Round Robbin
key为某个记录的主键，H（key）为存储该数据的物理机编号）。好处是简单，缺点是增减机器要重新hash，缺乏灵活性。它实际上是将物理机和数据分片两个功能点合二为一了，因而缺乏灵活性。
虚拟桶
membase在待存储记录和物理机之间引入了虚拟桶，形成两级映射。其中key-partition映射采用哈希函数，partition-machine采用表格管理实现。新加入机器时，只需要将原来一些虚拟桶划分给新的机器，只要修改partition-machine映射即可，具有灵活性。
一致性哈希
一致性哈希是分布式哈希表的一种实现算法，将哈希数值空间按照大小组成一个首尾相接的环状序列，对于每台机器，可以根据IP和端口号经过哈希函数映射到哈希数值空间内。通过有向环顺序查找或路由表（Finger Table）来查找。对于一致性哈希可能造成的各个节点负载不均衡的情况，可以采用虚拟节点的方式来解决。一个物理机节点虚拟成若干虚拟节点，映射到环状结构的不同位置。

2.range based partitioning
3.Secondary Indexs
除了数据本身要分片外，索引也需要分片。比较著名的两个反向索引分片策略就是document-based partitioning以及term-based partitioning。然后再此两个基本的策略之上衍生出了hybrid的方案。

1.local index(document-based partitioning)
也称作document-based partitioning.在每个partition本地维护一份关于本地数据的反向索引。这种方式的话，主要使用的是scatter/gather模式，即每次查询需要发送请求给所有的partition，然后每个partition根据本地的索引检索返回，之后汇总得出结果。

好处:
简单好维护

缺点:
查询比较费劲，比如有n个partition，要查top k，则每个partition都要查top k，总共需要n*k份文档被汇总

2.global index(term-based partitioning)
也称作term-based partitioning，这种方式的话，创建的索引不是基于partition的部分数据，而是基于所有数据来索引的。只不过这些全局索引使用range-based partitioning的方式再分布到各个节点上。

好处
读取效率高，因为索引是有序的，基于range parititioning，非常快速找到索引，而且这些索引是全局的，立马就可以定位到文档的位置。

缺点
写入成本比较高，每个文档的写入都需要维护/更新全局的索引。另外一个缺点就是range-partitioning本身的带来的缺点，容易造成数据分布不均匀，造成热点，影响吞吐量。

https://www.jianshu.com/p/7f7c4b472782

weixin_37633964

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Database Partition

一般来说，数据库的繁忙体现在：不同用户需要访问数据集中的不同部分，这种情况下，我们把数据的各个部分存放在不同的服务器/节点中，每个服务器/节点负责自身数据的读取与写入操作，以此实现横向扩展，这种技术成为分片，即sharding。这里主要分为两大类，一类是哈希分片(hash based partitionning)一类是范围分片(range based partitioning)1.哈希...
复制链接

扫一扫