收好这份武林秘籍，让你分库分表再无烦恼

最新推荐文章于 2024-10-28 10:56:10 发布

ghfgjfg679

最新推荐文章于 2024-10-28 10:56:10 发布

阅读量809

点赞数 22

文章标签：哈希算法算法

本文链接：https://blog.csdn.net/ghfgjfg679/article/details/138249967

版权

本文详细探讨了分库分表的策略，包括Hash方式和Range方式，强调了数据偏斜、扩容、分布式ID以及分布式事务等问题，并提供了各种解决方案。通过对不同方案的优缺点分析，帮助读者理解如何有效应对数据存储挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

直接解决单一表数据量过大而产生的性能问题。

4 水平切分依据详解

好的切分方式一定是较小的数据偏移，能够平滑的扩容。

4.1 Hash方式

Hash 是分库分表是最大众最普遍的方案。

4.1.1 误区

误区一：数据偏斜问题

数据偏斜问题就是指我们插入的数据不能均匀的散落在各个库表。出现的更本原因就是库数量和表数量非互质关系。

用 Hash 值分别对分库数和分表数取余，得到库序号和表序号。稍加思索一下，我们就会发现，以 10 库 100 表为例，如果一个 Hash 值对 100 取余为 0，那么它对 10 取余也必然为 0。

// 1 算Hash

int hash = id.hashCode();

// 2 总分片数

int sumSlot = DB_CNT * TBL_CNT;

// 3 分片序号

int slot = Math.abs(hash % sumSlot);

// 4 计算库序号和表序号的错误案例

int dbIdx = slot % DB_CNT ;

int tblIdx = slot / DB_CNT ;

复制代码

这就会造成只有 0 库里面的 0 表才可能有数据，而其他库中的 0 表永远为空。 会导致及其严重的数据偏斜问题。

基于Hash的方式我们也不能只考虑库数量和表数量非互质，还需要考虑到扩展性。

误区二：扩容难以持续

我们把 10 库 100 表看成总共 1000 个表，将求得的 Hash 值对 1000 取余，得到一个介于[0，999)中的数，然后再将这个数二次均分到每个库和每个表中,这样看似能够解决上述问题，但是这样依赖了总表数据，后续扩容会非常复杂，不仅要改算法，还要做数据迁移。

4.1.2 正解

方案一：标准的二次分片法

错误案例二，大体思路已经正确，但是过于依赖表的总数量，我们就可以根据分配序号重新计算库序号和表序号的逻辑进行调整，就可以实现标准的二次分片法。

// 1 算Hash

int hash = id.hashCode();

// 2 总分片数

int sumSlot = DB_CNT * TBL_CNT;

// 3 分片序号

int slot = Math.abs(hash % sumSlot);

// 4 二次分片法

int dbIdx = slot / TBL_CNT ;

int tblIdx = slot % TBL_CNT ;

复制代码

我们可以通过翻倍（2的倍数即可）扩容，扩容都，我们的表序号一定维持不变，库序号可能在原来库，也可能平移到了新库中(原库序号加上原分库数)，完全符合我们需要的扩容持久性方案。

方案弊端：

这种方式，扩容在前期容易，当分库数量过多时，就耗费资源
连续的分片键 Hash 值大概率会散落在相同的库中，某些业务可能容易存在热点库（例如新生成的数据的 Hash 相邻且递增，可能会造成一段时间内生成的新数据会集中在相邻的几个库中）。

方案二：基因法

案例一不合理的主要原因，就是因为库序号和表序号的计算逻辑中，有公约数这个因子在影响库表的独立性。

这也是一种常用的方案，我们称为基因法，即使用原分片键中的某些基因（例如前四位）作为库的计算因子，而使用另外一些基因作为表的计算因子。

// 通过分片键后四位

int dbIdx = Math.abs(id.substring(0, 4).hashCode() % DB_CNT );

int tblIdx = Math.abs(id.hashCode() % TBL_CNT);

复制代码

此种方案使用时，要综合分片键的样本规则，选取的分片键前缀位数，库数量，表数量，四个变量对最终的偏斜率都有影响。

方案弊端：

该方案数据偏斜可能会比较严重，需要做好充分的预估。

方案三：剔除公因数法

基于错误案例一启发，很多场景下我们还是希望相邻的 Hash 能分到不同的库中（计算库序号用 Hash 值对库数量取余）。

为了实现这一需求我们可以想办法去除公因数影响。

int dbIdx = Math.abs(id.hashCode() % DB_CNT);

// 计算表序号时先剔除掉公约数的影响

int tblIdx = Math.abs((id.hashCode() / TBL_CNT) % TBL_CNT);

复制代码

该方案的特点就是需要维持库序号不变。

方案四：关系表冗余法

我们可以通过一张 “路由关系表” 将分片键对应库关系建立起来。

此方案仍需要通过 Hash 算法计算表序号，但是在计算库序号时，从路由表中读取数据。因为每次数据查询时，都需要读取路由表，所以我们需要将分片键和库序号的对应关系记录同时维护在缓存中以提升性能。

int tblIdx = Math.abs(id.hashCode() % TBL_CNT);

// 从缓存获取

Integer dbIdx = loadFromCache(id);

if (null == dbIdx) {

// 从路由表获取

dbIdx = loadFromRouteTable(id);

if (null != dbIdx) {

// 保存到缓存

saveRouteCache(id, dbIdx);

}

if (null == dbIdx) {

// 此处可以自行设计逻辑

dbIdx = selectRandomDbIdx();

saveToRouteTable(id, dbIdx);

saveRouteCache(id, dbIdx);

}

复制代码

selectRandomDbIdx();方法作用是生成该分片键对应的存储库序号，这里我们可以灵活进行设置，可以自己设置权重，通过权重可以调节数据倾斜问题，这样我们可以在扩容时灵活调整，无需进行任何数据迁移。

该方案虽然看起来很美好，解决了很多问题，但是也会带来新的弊端：

每次读取数据都需要访问路由表，虽然增加了缓存，但是还是有一定的性能损耗。
如果要使用文件 MD5 摘要值作为分片键，由于样本集过大，无法为每个 md5 值都去指定关系（当然我们也可以使用 md5 前 N 位来存储关系）。
饥饿占位问题

这个在实际的业务场景会出现，一些不活跃的用户可能会浪费掉大量空间

通过在代码上增加一些是否活跃的验证，验证过的才分配空间
前期将多个库放在一个实例上，后期根据业务增长进行迁移

方案五：一致性Hash法

一致性 Hash 算法是一种比较流行的集群数据分区算法，比如 RedisCluster 即是通过一致性 Hash 算法，使用 16384 个虚拟槽节点进行每个分片数据的管理。

正规的一致性 Hash 算法会引入虚拟节点，每个虚拟节点会指向一个真实的物理节点。这样设计方案主要是能够在加入新节点后的时候，可以有方案保证每个节点迁移的数据量级和迁移后每个节点的压力保持几乎均等。

但是对于数据库来说，出现数据库下线的情况很少出现，新增节点也不会从0开始从其他节点迁移数据，所以说没有必要引入虚拟节点来增加复杂度。

为什么没有必要使用过多的虚节点？

花费额外的耗时和内存来加载虚拟节点的配置信息。
MySQL具有完备的主从同步方案
虚拟节点主要解决的问题是节点数据搬迁过程中各个节点的负载不均衡问题，通过虚拟节点打散到各个节点中均摊压力进行处理。

方案三：

4.2 Range方式

Range方式就是根据数据范围划分数据的存放位置。

最经典的按照年月进行分库分表，该方案比较朴实无华。

弊端：

数据热点问题无法解决，最新的数据肯定是最活跃的
交叉范围数据处理不方便，尤其是在跨年月的数据难以处理。
新库新表追加问题，追加不及时可能会出现线上故障

5 分库分表带来的问题

5.1 跨库关联查询

未拆分表之前，我们可以使用 join 关联多张表查询数据，但是经过分库分表后两张表可能都不在一个数据库中，无法使用 join

解决方案：

字段冗余：把需要关联的字段放入主表中，避免 join 操作；
数据抽象：通过 ETL 等将数据汇合聚集，生成新的表；
全局表：比如一些基础表可以在每个数据库中都放一份；
应用层组装：将基础数据查出来，通过应用程序组装起来；

5.2 排序、分页、函数计算问题

在使用 SQL 时 order by、limit 等关键字需要特殊处理，

解决方案：

先在每个分片上执行相应的函数，然后再将各个分片的结果汇总，再次计算。

5.3 分布式 ID

我们在使用 Mysql 数据库时，单库单表可以使用自增 id 作为主键，分库分表了之后就行不通了，会出现 id 重复。

分布式 ID 解决方案：

UUID
每个库占用一个id号段
基于数据库自增单独维护一张 ID表
Redis 缓存,通过读取缓存中的值，进行递增
雪花算法（Snowflake）
美团 Leaf
滴滴 Tinyid
百度 uid-generator

5.4 分布式事务

分库是无法避免分布式事务问题的

总结

对于面试，一定要有良好的心态，这位小伙伴面试美团的时候没有被前面阿里的面试影响到，发挥也很正常，也就能顺利拿下美团的offer。
小编还整理了大厂java程序员面试涉及到的绝大部分面试题及答案，希望能帮助到大家，

在这里插入图片描述

最后感谢大家的支持，希望小编整理的资料能够帮助到大家！也祝愿大家都能够升职加薪！

基于数据库自增单独维护一张 ID表

Redis 缓存,通过读取缓存中的值，进行递增
雪花算法（Snowflake）
美团 Leaf
滴滴 Tinyid
百度 uid-generator

5.4 分布式事务

分库是无法避免分布式事务问题的

总结

[外链图片转存中…(img-fgmPDodT-1714201190187)]

[外链图片转存中…(img-E6Xnw53T-1714201190187)]

最后感谢大家的支持，希望小编整理的资料能够帮助到大家！也祝愿大家都能够升职加薪！

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录