DDIA读书笔记第六章数据分区

最新推荐文章于 2024-08-22 18:57:44 发布

朱明代月

最新推荐文章于 2024-08-22 18:57:44 发布

阅读量290

点赞数

分类专栏： Engine 文章标签：数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014645632/article/details/104757408

版权

Engine 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

当数据量很庞大时，需要分区，即将数据拆分成多个数据块，分布在多个机器上。分区可以让数据和查询负载均衡地分布在所有节点上，还可以提高扩展性。

分区数据也需要多个副本，因此分区通常和同步结合使用。一个机器既可以同时是分区1的主节点，和分区2的从节点。
分区+同步

1 分区方案

基于 key-range

一种分区方案是，为每个区间分配一段连续的键区间，且分配应尽可能地平均。以字典为例，以B开头的页数远大于以Z开头的，所以以单词首字母进行分区显然不是一个好的划分方法。分区的边界要适应数据本身的分布特征。

有时候仅使用数据中的一个项（例如时间戳）进行分区可能会不均衡（比如白天数据多，夜晚数据少），可以使用多个项。

基于 key hash

另一种方案是对 key 做哈希，并为每个分区分配一个哈希范围。考虑到节点加入和删除的数据迁移，通常使用一致性哈希，而不是简单的哈希后取模。

相较基于 key-range，基于 key hash 丧失了良好的区间查询性能。这部分内容可以和第三章存储与检索中索引的结构照应。

复合主键

一个折中的解决方案是复合主键。复合主键由多个项组成，只有第一项用于哈希分区，其它项用作组合索引以便进行区间查询。

2 索引分区

数据可以通过分区，存储在多个节点上，但是索引应该如何分布？一个 item 的索引，应该分布在各个分区中，每个分区仅仅维护本分区数据的索引（本地索引）？还是每个一个分区负责存储和更新若干个 item 的全部索引（全局索引）？

本地索引写的开销很小，但是读会很费劲，因为需要遍历所有分区的索引，再聚合。

全局索引恰好相反，读开销很小，但是更新数据时，需要将不同分区的索引都进行更新。因此，全局索引的更新一般都是异步的。

3 分区均衡

分区负载不均衡，导致热点分区负载过大。需要一些措施均衡分区负载。

应用层均衡

例如某个键成了热点，可以在键结尾处加上不同的随机数作为后缀，成为新的键，分配到不同的分区。不过读取时需要遍历带全部后缀的键，会有额外开销。

固定数量分区

分区均衡需要考虑的主要一点就是减少数据迁移。如果所有键都哈希后取模节点数量映射到某一分区，那么一个节点加入后，所有键对应的分区号都会变化，数据迁移的成本过高。

一种简单的方案是固定数量分区。创建远超实际节点数的分区数，并为每个节点分配多个分区。当某个节点加入时，迁移其它节点的若干个分区到新节点上。这样只需要改变分区与节点的对应关系。

按节点比例分区

固定数量分区需要在初始时定好分区数量，有时候很难决定，过小可能不够用，过大会增重管理开销。另一种方案是按节点比例分区，即每个节点拥有固定数量的分区，当节点数量增加时，分区容量会变小。

4 路由方案

当客户端发送一个请求时，它应当发送到哪个节点上？这实际上是一个服务发现问题。键值到节点的路由逻辑可以放在节点处，客户端，或者单独抽离一个路由层。
路由策略

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

朱明代月 CSDN认证博客专家 CSDN认证企业博客

码龄11年

30: 原创

10万+: 周排名

187万+: 总排名

11万+: 访问

: 等级

1130: 积分

23: 粉丝

44: 获赞

18: 评论

108: 收藏

私信

关注

热门文章

分类专栏

计算广告 1篇
Engine 5篇
C++ 1篇
前端 1篇

最新评论

Optimized Cost per Click in Taobao Display Advertising - 淘宝 OCPC 阅读笔记
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客对于想要了解淘宝OCPC的人来说非常有价值。我觉得接下来可以写一篇关于利用淘宝OCPC优化竞价的具体技巧和经验分享的博客，这样的技术文章对其他用户也会有很大的帮助。相信会有更多读者来关注和学习。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
DDIA读书笔记第五章数据同步
b1ghawk: mark一下
js循环添加onclick事件
胡晓恒。: 你这个匿名函数，点击后直接运行函数，但是这个函数的作用域里没有任何参数，所以找不到i，找不到就往更大的作用域里继续找参数i，当往上找更大的作用域时，碰到了新的for循环，所以它走回来了。。。直到for循环运行完了，它终于出来了，找到了i，但此时的i已经经过了for循环的洗礼了，变成了最后的那位数，找到i后别闲着啊，所以程序马不停蹄地打印i。到此程序结束！！！
js循环添加onclick事件
胡晓恒。: 我要给你投币，太牛了
浅析std::ref与reference_wrapper
qq_32675267: 在上面想了半天，原来是少了个ref

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。