记一次分库分表——改造策略总结

最新推荐文章于 2025-04-02 09:51:18 发布

hanchao5272

最新推荐文章于 2025-04-02 09:51:18 发布

阅读量3.5k

点赞数 7

分类专栏：技术方案文章标签：分库分表 sharding-sphere 分表字段窄表缓存分布式键

本文链接：https://blog.csdn.net/hanchao5272/article/details/87093352

版权

技术方案专栏收录该内容

19 篇文章

订阅专栏

针对单表性能瓶颈和业务量激增，采用Sharding-Sphere进行分库分表改造，解决高并发、大规模数据处理难题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

抽空对前段时间的分库分表项目进行了简单的总结。

因为多方面原因，其实这个项目只是涉及到了分表，并没有涉及分库。当然，分库与分表的思路是可以相互借鉴的。

因为分库分表面对的场景多种多样，不能一概议论，所以本文只作为一种特定场景下的参考。

因为本人水平有限，不足与待改进之处，请大家多多指教。

场景概述

缘由：1.基本已经达到单表的性能瓶颈；2.最近业务量会成倍增加。
平均QPS：改造之后至少能够承受改造之前的10倍压力的QPS。
平均延时：改造之后的不能多出改造之前的50%的延时。
量级：当前量级：8千万，5年后预估量级：5亿。
项目：
- 项目类型：大致涉及20个系统，其中4个系统涉及增删改操作，其余系统只涉及读操作。
- 容器框架：时间跨度较大，servlet、spring、springBoot兼而有之。
- 持久框架：都是mybatis，但用法多种多样：1.通过MBG生成的SQL；2.通过map方式进行传参与返回值；3.通过POJO形式进行传参与返回值；4.混合方式。
- 数据库源：有些是单源数据源，有些是多源数据源，有些是动态数据源。
MySql集群：1主多从
主键ID：之前未实施分布式主键，而是使用的MySql的自增主键。
前端处理长整型丢失精度：目前前端未对超长长整形进行统一处理，可能面对部分展示数据丢失精度的问题。
数据结构（为了避嫌，以下表名及字段名使用化名）：
- 数据表名为：message（消息表）
- 主键：id，目前为MySql自增主键
- SQL涉及的字段分布：
  - uid：用户id，占比45%
  - mid：消息编号，占比35%
  - oid1,oid2,oid3…:其他字段，共计占比20%。
SQL语句：因为项目众多以及其他众多原因，有很多SQL不适合分库分表：union、sub-select、(())、replace-into、case-when
数据迁移：不停服
工期：90人天
版本：本文中的sharding-sphere限定为3.0.0。

问题解决方案

下面依次分析解决各个场景中存在的问题。

选取分库分表中间件

经过多方面考虑，最终选取sharding-sphere 3.0.0作为分库分表中间件。

计算分表数量

根据量级以及多方面原因，最终确定了分表数量为32个，原因如下：

如果5年后数据量级为5亿，则单表数量级为：5亿/32 =1562.5万，可以保证单表性能要求。
如果以后进行扩容，可以考虑成倍扩容，比如扩容成64个表。因为分表规则是取模，所以当分表数量成倍增加时，数据迁移工作量会小很多。
其他方面的考虑。

选取分表字段

分表最关键的是确认分表字段。

结合之前的数据结构，最终选取了uid(用户id)作为分表字段，考虑如下：

在所有的SQL中，此字段出现的频率相对最高。
此字段的业务意义在分表上说得通：即把一个用户id相关的所有记录存放在一个分表中。

包含分表字段的SQL不需要进行额外处理或者说只需要极少量改动即可，因为可以通过uid的值取模直接获取数据所在分表，也就是直接路由方式。

处理非分表字段

分表最头痛的是处理非分表字段。

如果包含分表字段uid的SQL占比高达90%，那么SQL即代码改造量会很小。但是实际情况是，55%的SQL不包含分表字段。

面对以上问题，短时间内想不到太好的解决方案，所以当时采用如下的窄表映射间接路由方案解决：

在一种数据库（db可以，缓存也可以）中，创建一种窄表映射结构，存储非分表字段至分表字段的映射关系，例如：mid->uid。
所有不包含uid但却包含mid的SQL，都可以首先通过mid的值得到uid的值，然后通过uid取模得到所在分表，也就是间接路由方式。

如何实施窄表映射间接路由方案也是一件头疼的问题，每个SQL都进行如此改造明显不现实，经过多方波折，最终形成了窄表缓存间接路由方案：

在codis/redis中存储窄表映射信息，如：mid->uid、oid1->uid等。缓存的存储分为三种渠道：
- 全量初始化：编写全量迁移程序，在上线初期，将MySql中的窄表映射关系，全量加载至缓存中，形成窄表缓存信息。
- 增量同步：编写增量迁移程序，在项目日常运行中，通过canal监听分表中窄表映射的变动信息，实时更新窄表缓存信息。
- 增量新增：二次开发sharding-sphere，当执行insert语句时，同时写入缓存，避免写完即用类型的操作产生错误。
二次开发sharding-sphere，对窄表缓存间接路由逻辑进行统一处理：
- 支持多种操作的窄表缓存间接路由逻辑：insert/replace、delete、update和select。
- 支持多个字段的窄表缓存间接路由逻辑：mid、oid1、oid2 ...等