一文搞懂数据库分库分表最佳实践及面试题

最新推荐文章于 2024-08-10 17:24:26 发布

置顶李人

最新推荐文章于 2024-08-10 17:24:26 发布

阅读量5.9k

点赞数 6

分类专栏： JAVA MYSQL 面试

本文链接：https://blog.csdn.net/qq_26465035/article/details/105134991

版权

JAVA 同时被 3 个专栏收录

74 篇文章 8 订阅

订阅专栏

面试

24 篇文章 2 订阅

订阅专栏

MYSQL

8 篇文章 0 订阅

订阅专栏

春风如贵客，一到便繁华。各位看官点赞再看，养成好习惯(●´∀｀●)

前言：

目前很多互联网系统都存在单表数据量过大的问题，这就降低了查询速度，影响了客户体验。为了提高查询速度，我们可以优化sql语句，优化表结构和索引，不过对那些百万级千万级的数据库表，即便是优化过后，查询速度还是满足不了要求。这时候我们就可以通过分表降低单次查询数据量，从而提高查询速度，

分表的方式有两种：水平拆分和垂直拆分，两者各有利弊，适用于不同的情况。

分库的工具有很多：这里推荐两种（工具的利弊，请自行调研，官网和社区优先，面试题部分会简单介绍下。）

Sharding-Sphere：jar，前身是sharding-jdbc；
Mycat：中间件。

首先要明确的一点是，分库分表，首先得知道瓶颈在哪里，然后才能合理地拆分。明确了瓶颈在哪里，才可以选择合适的方法进行操作，做到事半功倍的效果。

水平拆表：

水平拆分：指的是按照数据库表行的拆分。

根据阿里巴巴设计规范：单表一到两年内数据量超过500w或数据容量超过10G考虑分表。这时可以把一张的表的数据拆成多张表来存放。

以user表为例：有两种拆分方法：

1、提前建好若干张表。

经过业务评估，创建5张user表可以满足业务未来三到五年的业务增长量，那么可以采用此方法。我们要使用一张新的用户id自增表，表中只保留用户主键，方便水平拆表查询数据的时候对用户id进行取模。

eg：将原来user表拆分成 --> user1,user2,user3,user4,user5,user_temp。一共六张表。user_temp表用来存放用户主键，其余的五张表的字段和user 表字段一直，但是拆分的user表要将主键自增给去除掉。user1...user5表中的主键字段只是用来保留user_temp 表的主键映射（类似于外键的概念）

新增用户的时候：第一步，要将用户主键保留到user_temp表。第二步，将新增得到的主键userId=7进行取模，这里建立了5张分表，那么就对5取模：userId % 5。将取模后得到的数字与user表名进行拼接，即可得到一个完整的表名。即（7%5=2）->user2表。

2、按照一个标准自动创建表。

业务是持续性的增长，如果采用上面的方法，一到两年后是会形成5张超级大表。那么我们可以采用一个固定的策略进行分表操作。

eg：经业务评估，user表每一个月就会有500W的数据，那么可以在新增user表的时候，判断当前月份，比如判断当前时间是3月份，那么就创建在3月份的表：user_2020_03 即可。具体新增和查找方法就不细说了，有问题的留言即可哦。

库内分表只解决了单一表数据量过大的问题，但没有将表分布到不同机器的库上，因此对于减轻MySQL数据库的压力来说，帮助不是很大，大家还是竞争同一个物理机的CPU、内存、网络IO，最好通过分库分表来解决。

水平拆分的优点：

表关联基本能够在数据库端全部完成；
不会存在某些超大型数据量和高负载的表遇到瓶颈的问题；
应用程序端整体架构改动相对较少；
事务处理相对简单；
只要切分规则能够定义好，基本上较难遇到扩展性限制；

水平切分的缺点：

切分规则相对更为复杂，很难抽象出一个能够满足整个数据库的切分规则；
后期数据的维护难度有所增加，人为手工定位数据更困难；
应用系统各模块耦合度较高，可能会对后面数据的迁移拆分造成一定的困难。

垂直拆表：

垂直拆分：指的是按照数据表列的拆分。

垂直分库就是根据业务耦合性，将关联度低的不同表存储在不同的数据库。做法与大系统拆分为多个小系统类似，按业务分类进行独立划分，与"微服务治理"的做法相似。适用于：把一张列比较多的表拆分为多张表。表的记录并不多，但是字段却很长，表占用空间很大，检索表的时候需要执行大量的IO，严重降低了性能。这时需要把大的字段拆分到另一个表，并且该表与原表是一对一的关系。

岔开个题外话，如果严格按照阿里巴巴设计规范：