分表分库解决方案--垂直切分/水平切分

最新推荐文章于 2022-12-15 23:29:41 发布

ziqiiii

最新推荐文章于 2022-12-15 23:29:41 发布

阅读量1.6k

点赞数 1

分类专栏： sql 文章标签：分表分库 mysql

本文链接：https://blog.csdn.net/qq_20417499/article/details/93046641

版权

sql 专栏收录该内容

32 篇文章 1 订阅

订阅专栏

存在问题：

当一张表的数据达到几千万时，你查询一次所花的时间会变多，如果有联合查询的话，我想有可能会卡在那儿了。分表的目的就在于此，减小数据库的负担，缩短查询时间。

分区方式可以是任意的，并不局限于传统的水平分区和垂直分区：

MySql的Sharding策略包括垂直切分和水平切分两种。
垂直(纵向)拆分：是指按功能模块拆分，以解决表与表之间的io竞争。比如分为订单库、商品库、用户库…这种方式多个数据库之间的表结构不同。
水平(横向)拆分：将同一个表的数据进行分块保存到不同的数据库中，来解决单表中数据量增长出现的压力。这些数据库中的表结构完全相同。

表结构设计垂直切分。常见的一些场景包括
a). 大字段的垂直切分。单独将大字段建在另外的表中，提高基础表的访问性能，原则上在性能关键的应用中应当避免数据库的大字段
b). 按照使用用途垂直切分。例如企业物料属性，可以按照基本属性、销售属性、采购属性、生产制造属性、财务会计属性等用途垂直切分
c). 按照访问频率垂直切分。例如电子商务、Web 2.0系统中，如果用户属性设置非常多，可以将基本、使用频繁的属性和不常用的属性垂直切分开
表结构设计水平切分。常见的一些场景包括
a). 比如在线电子商务网站，订单表数据量过大，按照年度、月度水平切分
b). Web 2.0网站注册用户、在线活跃用户过多，按照用户ID范围等方式，将相关用户以及该用户紧密关联的表做水平切分
c). 例如论坛的置顶帖子，因为涉及到分页问题，每页都需要显示置顶贴，这种情况可以把置顶贴水平切分开来，避免取置顶帖子时从所有帖子的表中读取

垂直分表–“大表拆小表”

拆分是基于关系型数据库中的“列”（字段）进行的

e.g. 某个表中的字段比较多，可以新建立一张“扩展表”，将不经常使用或者长度较大的字段拆分出去放到“扩展表”中

（拆分字段的操作建议在数据库设计阶段就做好。如果是在发展过程中拆分，则需要改写以前的查询语句，会额外带来一定的成本和风险，建议谨慎。）

垂直分库

思路就是按照业务模块来划分出不同的数据库，而不是像早期一样将所有的数据表都放到同一个数据库中

系统层面的“服务化”拆分操作，能够解决业务系统层面的耦合和性能瓶颈，有利于系统的扩展维护。（数据库的连接资源比较宝贵且单机处理能力也有限，在高并发场景下，垂直分库一定程度上能够突破 IO、连接数及单机硬件资源的瓶颈，是大型分布式系统中优化数据库架构的重要手段。）

问题及解决思路：

跨库 join 的问题

拆分前：系统中很多列表和详情页所需的数据是可以通过 sql join 来完成的。
拆分后：数据库可能是分布式在不同实例和不同的主机上，join 将变得非常麻烦。
而且基于架构规范，性能，安全性等方面考虑，一般是禁止跨库 join 的。
那该怎么办呢？
首先要考虑下垂直分库的设计问题，如果可以调整，那就优先调整。
如果无法调整的情况，下面笔者将结合以往的实际经验，总结几种常见的解决思路，并分析其适用场景。

跨库 Join 的几种解决思路:

a. 全局表 : 就是有可能系统中所有模块都可能会依赖到的一些表。比较类似我们理解的“数据字典”。为了避免跨库 join 查询，我们可以将这类表在其他每个数据库中均保存一份。同时，这类数据通常也很少发生修改（甚至几乎不会），所以也不用太担心“一致性”问题。

b. 字段冗余 : 这是一种典型的反范式设计，在互联网行业中比较常见，通常是为了性能来避免 join 查询。e.g. “订单表”中保存“卖家 Id”的同时，将卖家的“Name”字段也冗余，这样查询订单详情的时候就不需要再去查询“卖家用户表”。字段冗余能带来便利，是一种“空间换时间”的体现。但其适用场景也比较有限，比较适合依赖字段较少的情况。最复杂的还是数据一致性问题，这点很难保证，可以借助数据库中的触发器或者在业务代码层面去保证。当然，也需要结合实际业务场景来看一致性的要求。就像上面例子，如果卖家修改了 Name 之后，是否需要在订单信息中同步更新呢？

c. 数据同步 : 定时 A 库中的 tab_a 表和 B 库中 tbl_b 有关联，可以定时将指定的表做同步。当然，同步本来会对数据库带来一定的影响，需要性能影响和数据时效性中取得一个平衡。这样来避免复杂的跨库查询。

水平分表–横向分表

将表中不同的数据行按照一定规律分布到不同的数据库表中（这些表保存在同一个数据库中），这样来降低单表数据量，优化查询性能。最常见的方式就是通过主键或者时间等字段进行 Hash 和取模后拆分。

（水平分表，能够降低单表的数据量，一定程度上可以缓解查询性能瓶颈。但本质上这些表还保存在同一个库中，所以库级别还是会有 IO 瓶颈。所以，一般不建议采用这种做法。）

水平分库分表

水平分库分表与上面讲到的水平分表的思想相同，唯一不同的就是将这些拆分出来的表保存在不同的数据中。这也是很多大型互联网公司所选择的做法。

某种意义上来讲，有些系统中使用的“冷热数据分离”（将一些使用较少的历史数据迁移到其他的数据库中。而在业务功能上，通常默认只提供热点数据的查询），也是类似的实践。在高并发和海量数据的场景下，分库分表能够有效缓解单机和单库的性能瓶颈和压力，突破 IO、连接数、硬件资源的瓶颈。当然，投入的硬件成本也会更高。同时，这也会带来一些复杂的技术问题和挑战（例如：跨分片的复杂查询，跨分片事务等）

跨库事务（分布式事务）的问题

按业务拆分数据库之后，不可避免的就是“分布式事务”的问题。以往在代码中通过 spring 注解简单配置就能实现事务的，现在则需要花很大的成本去保证一致性

那么分库分表多少合适呢?

经测试在单表1000万条记录一下,写入读取性能是比较好的. 这样在留点buffer,那么单表全是数据字型的保持在800万条记录以下, 有字符型的单表保持在500万以下。

参考自：

ziqiiii

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分表分库解决方案--垂直切分/水平切分

存在问题：当一张表的数据达到几千万时，你查询一次所花的时间会变多，如果有联合查询的话，我想有可能会卡在那儿了。分表的目的就在于此，减小数据库的负担，缩短查询时间。分区方式可以是任意的，并不局限于传统的水平分区和垂直分区：MySql的Sharding策略包括垂直切分和水平切分两种。垂直(纵向)拆分：是指按功能模块拆分，以解决表与表之间的io竞争。比如分为订单库、商品库、用户库…这种方式多...
复制链接

扫一扫