一 分库分表基本概念
1.1 分库
将一个数据库,在节点上部署多台。因为当很多客户端连接客户端,并发量高,需要进行分库。
1.2 分表
将一个表,分成多个表。因为在MySQL中一个表数据达到5千万条,数据库性能严重下降。
1.3 分区
- 概述
分区技术是数据库内部技术,对于我们开发者来说,一张表分区后仍然是一张表,我们开发操作表名没有变化。仅仅是将表分成若干物理区。
- 为什么不使用分区
受单机因素限制(大量连接、高吞吐),虽然每个区是独立的,但是分区表的总入口就一个。
二 分库分表的中间件
我们进行分库分表为什么引入中间件,因为我们之前操作单体数据库时候,我们使用jdbc连接给定的一个数据库和给定的一个表。但是
我们进行分库分表后,我们程序操作数据库由原来的一个变成两个或者多个,表变成两张或者多张。我们使用原先的jdbc技术没法相同
的库相同的表。所以引入类似别人写好的工具,我们业务代码和之前的一样,工具类对多个库多个表进行操作汇总。从而达到业务要求。
2.1 常用中间件
- 常用中间件分为两个类型
client 模式
proxy 模式
- sharding-jdbc(client)
备注
引入sharding-jdbc的一个jar,就引入sharding-jdbc这个插件。就能代替jdbc操作数据库(多数据库多表)。
- mycat(proxy)
备注
因为mycat是单独部署的,单机模式安全性不高,因此需要多个机器部署。
三 分库分表需要注意问题&产生的问题剖析
3.1 分库分表原则
- 能不分库分表就不分库分表。因为分库分表导致业务逻辑复杂,代码书写复杂。
- 解除耦合性,需要将一些使用频率高的表和使用频率低的表分开。
- 数据量太大无法满足正常的业务访问,进行分表分库。
3.2 分库分表架构方案
- 垂直分库
数据库并发量上来了,数据量不是很大,进行垂直分库。分库后的数据库结构不一样数据不一样。
2. 水平分库分表
并发量不大,数据量不大。但是表中字段多,一部分字段就经常被查询的,另外一部分不怎么被查询。所以需要将字段拆分。降低查询时候io时间。
3. 水平分库
并发量大,数据量大,采用水平分库。将一个数据库,拆分若干个数据库,数据库的结构一样,数据不一样。
4. 水平分表
并发量不大,数据库中表的数据量大。采用水平分表。将一个表分成若干个表,表的数据结构一样,每个表数据不一样。
3.3 分库分表产生问题剖析
- 产生分布式事务问题
以前数据操作是在一个数据库操作,可以利用数据库事务解决。现在操作可能面临多个数据库,从而数据库的事务不能起作用。
采用分段式提交事务,最终一致性解决。
- 跨节点join问题
在一个数据库中进行多表关联查询,直接使用join查询。进行分库分表后,将多表分布到多个节点上就不能只用join关联查询了。
采用字段雍余方案,或者调用别的服务,结果归并。
- 主键重复