mysql 分表查询策略_关于分库分表策略的分析和总结

最新推荐文章于 2024-09-17 22:59:04 发布

庄明仁

最新推荐文章于 2024-09-17 22:59:04 发布

阅读量457

点赞数

文章标签： mysql 分表查询策略

本文链接：https://blog.csdn.net/weixin_36454202/article/details/113437700

版权

一.分库分表的原因

我个人觉得原因其实很简单：

1.随着单库中的数据量越来越大，相应的，查询所需要的时间也越来越多，而面对MySQL这样的数据库，在进行添加一列这样的操作时会有锁表的操作，期间所有的读写操作都要等待，这个时候，相当于数据的处理遇到了瓶颈

2.其实就是有意外发生的时候，单库发生意外的时候，需要修复的是所有的数据，而多库中的一个库发生意外的时候，只需要修复一个库(当然，也可以用物理分区的方式处理这种问题)

二.分库分表常用的策略

在我网上搜集的过程中，以及自己的实践，得到的分库策略可以简单分为以下几种方式：(如果有不正确的地方，请大家给我指出来，万分感谢)

首先，分为垂直切分和水平切分：

先说垂直切分吧，我的认为是根据业务的不同，将原先拥有很多字段的表拆分为两个或者多个表，这样的代价我个人觉得很大，原来对这应这个表的关系，开始细分，需要一定的重构，而且随着数据量的增多，极有可能还要增加水平切分；

水平切分，数据表结构，将数据分散在多个表中；

0c4e542d4ea7

简单的示意图的了解一下。

对于垂直切分，好像能说的并不多，说的比较多一点的是水平切分。

水平切分时候，理想的情况是不进行数据迁移，无感知的进行，当然这就需要一点点小小的分库分表的策略。

1.有瑕疵的简单分库分表(按id的大小分库分表)

按照分片键(我们这里就用id表示了)的大小来进行分库分表，如果你的id是自增的，而且能保证在进行分库分表后也是自增的，那么能进行很好的改造，以id大小水平切分，而且极有可能不用迁移数据。

0c4e542d4ea7

按id大小分库.PNG

当然，这里只列举了比较小的数据量，实际情况的分库的界限还是要依据具体的情况而定。这样的分库分表，因为新的数据总在一个库里，很可能导致热点过于集中(读写可能集中在一个库中)，这是采取这种方式需要考虑的事情。

如果无法保证你的id是自增长的，那么你的数据就会凌乱的分散在各个数据库，这样热点确实就分散了，可是每当你增加一个数据库的时候，你就有可能进行大量的数据迁移，应对这种情况，就是尽量减少数据迁移的代价，所以这里运用一致性hash的方式进行分库分表比较好，可以尽可能的减少数据迁移，并且也能让解决热点过于集中的问题。一致性hash的分库策略去百度一下或者谷歌一下应该很容易搜到。如果你百度了还是不知道，欢迎你来跟我讨论。

这里按id的大小来分库，还可以发散到按照时间来分库，比如说一个月的数据放在一个库，这个使用mycat比较容易实现按时间分库，不过你需要思考的数据的离散性，数据集中于一个两月，而剩下的几个月数据稀疏，这样的又可能需要按照数据的生产规律合并几个月到一个库中，使得数据分布均匀。

2.比较方便的取模分库

一般的取模分库分表是就是将id mod n，然后放入数据库中，这样能够使数据分散，不会有热点的问题，那么，剩下的是，在扩容的时候，是否会有数据迁移的问题，一般的扩容，当然是会有数据迁移的。

0c4e542d4ea7

取模.PNG

例子中，对3取模，当需要扩容的时候(假设增加两个库)，则对5取模，这样的结果必然是要进行数据迁移的，但是可以运用一些方法，让它不进行数据迁移，scale-out扩展方案能够避免在取模扩容的时候进行数据迁移。这个方案是我看到的，我个人觉得很好的方案了，这是

(1)第一种扩容的方式：根据表的数据增加库的数量

首先，我们有一个数据库——DB_0,四张表——tb_0,tb_1,tb_2,tb_3

那么我们现在数据到数据库是这样的:

DB="DB_0"

TB=“tb_"+id%4

0c4e542d4ea7

当数据增加，需要进行扩容的时候，我增加一个数据库DB_1

DB="DB_"+((id%4)/2)

TB=“tb_"+id%4

0c4e542d4ea7

当我们的数据继续飙升，这个时候又需要我们增加库，这个时候进行加库操作的时候，就不是增加一个库，而必须是两个，这样才能保证不进行数据迁移。

DB="DB_"+id%4

TB=“tb_"+id%4

0c4e542d4ea7

这个时候到了这个方案的加库上限，不能继续加库了，否则就要进行数据迁移，所以这个方案的弊端还是挺大了，这样的方式，也应该会造成单表的数据量挺大的。

(2)第二种扩容的方式：成倍的增加表

首先，我们还是一个数据库——DB_0,两张表——tb_0,tb_1

那么我们现在数据到数据库是这样的:

DB="DB_0"

TB=“tb_"+id%2

0c4e542d4ea7

假设当我们数据量打到一千万的时候，我们增加一个库，这时需要我们增加两张表tb_0_1,tb_1_1,并且原来的DB_0中库的表tb_1整表迁移到DB_1中，tb_0和tb_0_1放在DB_0中，tb_1和tb_1_1放到DB1中。

DB="DB_"+id%2

tb:

if(id<1千万) { return "tb_" + id % 2 }

else if(id>=1千万) { return "tb_"+ id % 2 + "_1" }

0c4e542d4ea7

数据的增长不可能到此为止，当增加到两千万的时候，我们需要加库，这个时候，按照这种做法，我们需要增加两个库(DB_2,DB_3)和四张表(tb_0_2,tb_1_2,tb_2_2,tb_3_2)，将上次新增的表整表分别放进两个新的库中，然后每个库里再生成一张新表。

DB:

if(id < 1千万) { return "DB_" + id % 2 }

else if(1千万 <= id < 2千万) { return "DB_"+ id % 2 +2 }

else if(2千万 <= id ) { return "DB_"+ id % 4 }

tb:

if(id < 1千万) { return "tb_" + id % 2 }

else if(1千万 <= id < 2千万) { return "tb_"+ id % 2 +"1" }

else if(id >= 2千万) { return "tb"+ id % 4+"_2" }

0c4e542d4ea7

值得注意的一点，在id超出范围的时候，该给怎么样的提示是值得思考的。

(3)第二种扩容的方式：一个一个的增加。(我在这里和原文有点出入，大家不看也罢)

上一种方式是成倍的增加，有的时候往往不需要这样，现在我们基于上一个例子的第二阶段(1千万到2千万的阶段)，添加一个库DB_2,新增两张表tb_0_2,tb_1_2;将tb_0和tb_1放在DB_0中，最为旧文件的查询，tb_0_1和和tb_1_1分别放入DB_1和DB_2中，再在这两个库中生成新的表

DB:

if(id < 1千万) { return "DB_0"}

else if(1千万 <= id < 2千万) { return "DB_"+ (id % 2 + 1)

else if(id >= 2千万) {return "DB_"+ id%3}

tb:

if(id < 1千万) { return "tb_" + id%2}

else if(1千万 <= id < 2千万) { return "tb_"+ (id % 2) +”1“

else if(id >= 2千万) {return "DB"+ id%2 +"_0"}

0c4e542d4ea7

第三种扩展方式，按照原文的介绍，会在旧的数据库中加入新的数据库，而且当继续扩容的时候，也会又一定的困难，我这样的方式，对于新的扩容，比较困难，所以第三种方式总的来说是我认为是失败，我个人觉得最优的方式是第二种，我这里的id>n是指在数据量达到n这个数据量，而不是指id按大小进行比较，那样的话，和按照id大小进行扩容又什么区别，哈哈哈。

总得来说，对于数据库扩容，总得思考方向为两点：一个是是否进行数据迁移；一个是数据是否分布均匀，会不会造成热点集中的情况。数据迁移也不一定是坏的，这些都依据场景而定。

二.分库分表后的考虑

分库分表之后常常会遇到数据分页的问题，这个问题其实解决的办法很多，但是都没有一个完美的方法，总的来说，还是需要妥协，例如在不分库分表前：select * from t_msg order by time offset 200 limit 100 这样的语句，在分库分表的后，我看到的有这样几种处理

方法一：全局视野法(分别从各个库中提取到x+Y的数据量进行排序提取)

将order by time offset X limit Y，改写成order by time offset 0 limit X+Y。

服务层对得到的N*(X+Y)条数据进行内存排序，内存排序后再取偏移量X后的Y条记录。

方法二：业务折衷法-禁止跳页查询

用正常的方法取得第一页数据，并得到第一页记录的time_max。

每次翻页，将order by time offset X limit Y，改写成order by time where time>$time_max limit Y以保证每次只返回一页数据，性能为常量。

方法三：业务折衷法-允许模糊数据(数据分布足够随机的情况下，各分库所有非patition key属性，在各个分库上的数据分布，统计概率情况应该是一致的)

将order by time offset X limit Y，改写成order by time offset X/N limit Y/N。

方法四：二次查询法