收好这份武林秘籍,让你分库分表再无烦恼

本文详细探讨了分库分表的策略,包括Hash方式和Range方式,强调了数据偏斜、扩容、分布式ID以及分布式事务等问题,并提供了各种解决方案。通过对不同方案的优缺点分析,帮助读者理解如何有效应对数据存储挑战。
摘要由CSDN通过智能技术生成
  • 直接解决单一表数据量过大而产生的性能问题。

4 水平切分依据详解


好的切分方式一定是较小的数据偏移,能够平滑的扩容。

4.1 Hash方式

Hash 是分库分表是最大众最普遍的方案。

4.1.1 误区

误区一:数据偏斜问题

数据偏斜问题就是指我们插入的数据不能均匀的散落在各个库表。出现的更本原因就是库数量和表数量非互质关系

用 Hash 值分别对分库数和分表数取余,得到库序号和表序号。稍加思索一下,我们就会发现,以 10 库 100 表为例,如果一个 Hash 值对 100 取余为 0,那么它对 10 取余也必然为 0。

// 1 算Hash

int hash = id.hashCode();

// 2 总分片数

int sumSlot = DB_CNT * TBL_CNT;

// 3 分片序号

int slot = Math.abs(hash % sumSlot);

// 4 计算库序号和表序号的错误案例

int dbIdx = slot % DB_CNT ;

int tblIdx = slot / DB_CNT ;

复制代码

这就会造成只有 0 库里面的 0 表才可能有数据,而其他库中的 0 表永远为空。 会导致及其严重的数据偏斜问题。

基于Hash的方式我们也不能只考虑库数量和表数量非互质,还需要考虑到扩展性

误区二:扩容难以持续

我们把 10 库 100 表看成总共 1000 个表,将求得的 Hash 值对 1000 取余,得到一个介于[0,999)中的数,然后再将这个数二次均分到每个库和每个表中,这样看似能够解决上述问题,但是这样依赖了总表数据,后续扩容会非常复杂,不仅要改算法,还要做数据迁移。

4.1.2 正解

方案一:标准的二次分片法

错误案例二,大体思路已经正确,但是过于依赖表的总数量,我们就可以根据分配序号重新计算库序号和表序号的逻辑进行调整,就可以实现标准的二次分片法。

// 1 算Hash

int hash = id.hashCode();

// 2 总分片数

int sumSlot = DB_CNT * TBL_CNT;

// 3 分片序号

int slot = Math.abs(h

  • 22
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值