shardingjdbc分库分表数据均衡性讨论

林犀居士

已于 2023-09-23 21:54:23 修改

阅读量368

点赞数 2

分类专栏： shardingJdbc 分库分表文章标签： shardingJDBC 分库分表 mysql java 大数据

于 2023-09-23 10:21:47 首次发布

本文链接：https://blog.csdn.net/tianmlin1/article/details/133199048

版权

shardingJdbc 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

分库分表

1 篇文章 0 订阅

订阅专栏

文章探讨了在业务系统中使用sharding-Jdbc进行分库分表时遇到的问题，从最初的简单hash路由策略到优化后的分表策略，解决了数据分布不均和负载不均衡问题。作者解释了为何选择2的整数次幂作为分表数量，并给出了最终的分库分表表达式。

摘要由CSDN通过智能技术生成

问题引入

最近一个业务系统中，因为数据量很大，经过技术选型，综合权衡选择了sharding-Jdbc，本文主要讨论的是分库分表的表达式

我们有一个批次总表A，还有一个明细表B，我们需要对明细表B进行水平拆分，考虑系统数据的可扩展性和mysql的负载，我们打算针对B表进行分表，分4个数据库，每个数据库64张表，使用A表的主键批次id【fnQpid】来作为分片键。

问题演进

第一版本

一开始选用了一个最简单的hash路由策略，如下：

分库策略为

fnQpid % 4

分表策略为

fnQpid % 64

乍一看，没啥问题，仔细琢磨后发现了一个问题，这样分会导致数据分布不均衡，为啥会导致数据不均衡呢？

假设某一个fnQpid的数据分在了0库的1分表，那么这个fnQpid需要满足什么条件呢？

第一，分在了0库需要满足，fnQpid=4m 【m为整数】 ====》可以推测出fnQpid为偶数

第二，分在1分表需要满足，fnQpid=64n+1 【n为整数】====》可以推测出fnQpid为奇数

毫无疑问，这样的fnQpid是不存在的，也就是某一个fnQpid的数据分在了0库的1分表这个假设不成立，也就是这样分库分表会导致数据分布不均衡。

第二版本

发现上面的问题后，优化了一版分库分表的算法

分库策略

(fnQpid % 256)/64

分表策略

(fnQpid % 256) % 64

简单介绍一下这个方案的思路

先计算总的逻辑表的数量，也就是4*64=256
然后计算fnQpid % 256的值，这个值的范围是[0,255]，把这256个数据当成是一个整体来看，计算其所在的数据库(fnQpid % 256)/64，该值的范围是[0,3]
最后计算所在分表(fnQpid % 256) % 64，该值的数据范围是[0,63]

按照这样的分库分表方式，不会出现第一种情况（有些表永远不会有数据出现），但是这样的路由策略有一个美中不足，如图

当批次号连续自增的时候，明细表的数据分布是这样的，前256个批次的数据在0库，接着在1库，接着在2库，最后在3库，再接着又回到0库，如此循环往复。

若每个批次有1000条数据，那么在短时间内，就会有256000的数据落在同一个数据库，这个瞬时数据的写入、查询都是一个不小的压力。可以说这个方案，数据物理上是分布均衡的，但是在短时间内，mysql单个数据库的负载是不均衡的。

第三版本

考虑到上面两种问题后，继续优化

分库策略为

fnQpid % 4

分表策略为

(fnQpid >> 2) % 64

简单介绍下这个方案
这个方案是在方案一的基础上，进行了分表策略的优化。
一开始是直接用fnQpid % 64，这样有问题是fnQpid的最后两位二进制已经参与了数据库（fnQpid % 4）的计算了，再参与分表的计算，就会互相影响。新的方案是，先踢掉最后两位二进制(fnQpid >> 2)，再参与分表计算，数据流入如下图